Fugu-MT 論文翻訳(概要): Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models

論文の概要: Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models

arxiv url: http://arxiv.org/abs/2403.11802v5
Date: Tue, 24 Dec 2024 01:41:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 16:57:55.759331
Title: Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models
Title（参考訳）: Counting-Stars: 長期言語モデル評価のためのマルチエビデンス、位置認識、スケーラブルベンチマーク
Authors: Mingyang Song, Mao Zheng, Xuan Luo,
Abstract要約: textbfCounting-Starsは、長文LLMのマルチエビデンス検索能力を評価するために設計されたマルチエビデンス、位置認識、スケーラブルなベンチマークである。我々は, GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, Moonshot-v1 などの長文 LLM の評価実験を行った。 Gemini 1.5 Proは、GPT-4 Turboは、様々なタスクで最も安定したパフォーマンスを示す。
参考スコア（独自算出の注目度）: 14.906150451947443
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent efforts to develop large language models with robust long-context capabilities, the lack of long-context benchmarks means that relatively little is known about their performance. To alleviate this gap, in this paper, we propose \textbf{Counting-Stars}, a multi-evidence, position-aware, and scalable benchmark designed to evaluate the multi-evidence retrieval capabilities of long-context LLMs. \textbf{Counting-Stars} comprises two counting-based multiple pieces of evidence retrieval sub-tasks: searching and reasoning. Using Counting-Stars, we conduct experiments to evaluate several long-context LLMs, including GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, and Moonshot-v1. Extensive experimental results demonstrate that Gemini 1.5 Pro achieves the best overall results, while GPT-4 Turbo exhibits the most stable performance across various tasks. Furthermore, our analysis of these LLMs, which have been extended to handle long-context scenarios, indicates that significant room for improvement remains as the length of the input context and the complexity of the tasks increase.
Abstract（参考訳）: 近年、堅牢な長期コンテキスト機能を持つ大規模言語モデルの開発が試みられているが、長期コンテキストベンチマークの欠如は、その性能についてはあまり知られていないことを意味している。このギャップを軽減するために、長文LLMのマルチエビデンス検索能力を評価するために設計されたマルチエビデンス、位置認識、スケーラブルなベンチマークである \textbf{Counting-Stars} を提案する。 \textbf{Counting-Stars} は2つのカウンティングベースの複数のエビデンス検索サブタスクから構成される。 GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, Moonshot-v1 などの長文 LLM の評価実験を行った。 GPT-4 Turboは様々なタスクにおいて最も安定した性能を示す。さらに,長いコンテキストシナリオを扱うために拡張されたこれらのLCMの解析結果から,入力コンテキストの長さやタスクの複雑さが増大するにつれて,改善の余地が著しく残っていることが示唆された。

関連論文リスト

100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。 LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文参考訳（メタデータ） (2025-05-25T19:58:31Z)
CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels [11.614599448394374]
CNNSumは中国の小説に基づく長文要約のベンチマークである。 4つのサブセットは合計695個のサンプルを持ち、長さは16kから128kである。我々は、長文要約を探索し、改善するための実験を行う。
論文参考訳（メタデータ） (2024-12-03T20:35:57Z)
Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。我々はこの目的のために特別に設計されたアプローチである我々の提案する。人類の専門家や先進的なモデルによるデータに依存する従来のアプローチと比べて優れたパフォーマンスを達成しています
論文参考訳（メタデータ） (2024-11-12T19:53:00Z)
LIFBench: Evaluating the Instruction Following Performance and Stability of Large Language Models in Long-Context Scenarios [16.72802527902692]
本稿では,Long-context Instruction-Following Benchmark (LIFBench)を紹介する。 LIFBenchは3つの長文シナリオと11の多様なタスクから構成されており、長さ、式、変数の3次元にわたる自動拡張メソッドによって生成される2,766の命令でサポートされている。評価のために,LLM支援評価や人的判断に頼ることなく,複雑なLCM応答の正確な自動スコアリングを提供するルーリックベースの評価フレームワークLIFEvalを提案する。
論文参考訳（メタデータ） (2024-11-11T14:43:51Z)
LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。本稿ではLongInsベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2024-06-25T14:31:26Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
MileBench: Benchmarking MLLMs in Long Context [31.211260223575092]
MLLMのMultImodal Long-contExt機能をテストするためのベンチマークであるMileBenchを紹介する。 MLLMの長文適応能力と長文シナリオにおけるタスク完了能力を体系的に評価する。その結果、オープンソースGPT-4oは他よりも優れているが、ほとんどのオープンソースMLLMは長期的文脈で苦労していることがわかった。
論文参考訳（メタデータ） (2024-04-29T09:19:05Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。 XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文参考訳（メタデータ） (2024-04-08T12:29:07Z)
ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models [25.74741863885925]
本稿では,現実的な会議支援シナリオに着目した長文LLMのための新しいベンチマークを提案する。当社のベンチマークであるELITR-Benchは、既存のERLITRコーパスを拡張し、271の質問を手作業で行うことで、真真正な回答を与えています。 ELITR-Bench上の12個の長文LLMによる実験により、プロプライエタリモデルとオープンモデルの両方の世代間で進行が確認された。
論文参考訳（メタデータ） (2024-03-29T16:13:31Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models [58.54538318912159]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。 M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文参考訳（メタデータ） (2023-10-30T03:11:30Z)
BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。 5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文参考訳（メタデータ） (2023-09-23T11:36:15Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。