論文の概要: 100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?
- arxiv url: http://arxiv.org/abs/2505.19293v1
- Date: Sun, 25 May 2025 19:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.034981
- Title: 100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?
- Title(参考訳): 100-LongBench: 事実上のロングコンテキストベンチマークは、ロングコンテキストの能力を評価するか?
- Authors: Wang Yang, Hongye Jin, Shaochen Zhong, Song Jiang, Qifan Wang, Vipin Chaudhary, Xiaotian Han,
- Abstract要約: リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。
LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。
長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
- 参考スコア(独自算出の注目度): 28.694112253150983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context capability is considered one of the most important abilities of LLMs, as a truly long context-capable LLM enables users to effortlessly process many originally exhausting tasks -- e.g., digesting a long-form document to find answers vs. directly asking an LLM about it. However, existing real-task-based long-context evaluation benchmarks have two major shortcomings. First, benchmarks like LongBench often do not provide proper metrics to separate long-context performance from the model's baseline ability, making cross-model comparison unclear. Second, such benchmarks are usually constructed with fixed input lengths, which limits their applicability across different models and fails to reveal when a model begins to break down. To address these issues, we introduce a length-controllable long-context benchmark and a novel metric that disentangles baseline knowledge from true long-context capabilities. Experiments demonstrate the superiority of our approach in effectively evaluating LLMs.
- Abstract(参考訳): 例えば、長い形式のドキュメントをダイジェストして回答を見つけ、LSMに直接尋ねるよりも、LLMが実行しているタスクの多くを、本当に長いコンテキストで処理することができるので、LLMの長文の能力は最も重要な能力の1つだと考えられている。
しかし、既存のリアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。
まず、LongBenchのようなベンチマークでは、長いコンテキストのパフォーマンスをモデルのベースライン能力から切り離すための適切なメトリクスを提供していないことが多いため、クロスモデルの比較は不明確である。
第二に、そのようなベンチマークは通常、固定された入力長で構築されるため、異なるモデルにまたがる適用性が制限され、モデルが故障し始める際には明らかにならない。
これらの問題に対処するために、長さ制御可能な長文ベンチマークと、ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
LLMを効果的に評価する上で,本手法の優位性を示す実験を行った。
関連論文リスト
- Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。