論文の概要: 100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?
- arxiv url: http://arxiv.org/abs/2505.19293v1
- Date: Sun, 25 May 2025 19:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.034981
- Title: 100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?
- Title(参考訳): 100-LongBench: 事実上のロングコンテキストベンチマークは、ロングコンテキストの能力を評価するか?
- Authors: Wang Yang, Hongye Jin, Shaochen Zhong, Song Jiang, Qifan Wang, Vipin Chaudhary, Xiaotian Han,
- Abstract要約: リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。
LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。
長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
- 参考スコア(独自算出の注目度): 28.694112253150983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context capability is considered one of the most important abilities of LLMs, as a truly long context-capable LLM enables users to effortlessly process many originally exhausting tasks -- e.g., digesting a long-form document to find answers vs. directly asking an LLM about it. However, existing real-task-based long-context evaluation benchmarks have two major shortcomings. First, benchmarks like LongBench often do not provide proper metrics to separate long-context performance from the model's baseline ability, making cross-model comparison unclear. Second, such benchmarks are usually constructed with fixed input lengths, which limits their applicability across different models and fails to reveal when a model begins to break down. To address these issues, we introduce a length-controllable long-context benchmark and a novel metric that disentangles baseline knowledge from true long-context capabilities. Experiments demonstrate the superiority of our approach in effectively evaluating LLMs.
- Abstract(参考訳): 例えば、長い形式のドキュメントをダイジェストして回答を見つけ、LSMに直接尋ねるよりも、LLMが実行しているタスクの多くを、本当に長いコンテキストで処理することができるので、LLMの長文の能力は最も重要な能力の1つだと考えられている。
しかし、既存のリアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。
まず、LongBenchのようなベンチマークでは、長いコンテキストのパフォーマンスをモデルのベースライン能力から切り離すための適切なメトリクスを提供していないことが多いため、クロスモデルの比較は不明確である。
第二に、そのようなベンチマークは通常、固定された入力長で構築されるため、異なるモデルにまたがる適用性が制限され、モデルが故障し始める際には明らかにならない。
これらの問題に対処するために、長さ制御可能な長文ベンチマークと、ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
LLMを効果的に評価する上で,本手法の優位性を示す実験を行った。
関連論文リスト
- Ref-Long: Benchmarking the Long-context Referencing Capability of Long-context Language Models [36.69535336525585]
長文言語モデル(LCLM)は、長文理解タスクにおいて印象的な機能を示した。
長文参照は、LCLMが関心のある項目を長文データの特定の部分に属性付けする必要がある重要なタスクである。
本稿では,LCLMの長文参照能力を評価するための新しいベンチマークであるRef-Longを提案する。
論文 参考訳(メタデータ) (2025-07-13T06:17:53Z) - MiniLongBench: The Low-cost Long Context Understanding Benchmark for Large Language Models [52.60063131713119]
長期文脈理解(Long Context Understanding、LCU)は、現在の大言語モデル(LLM)における探索の重要な領域である。
LLMの既存のLCUベンチマークは、しばしば非常に高い評価コストをもたらす。
本稿では,スパース情報特性を持つ長文データに適した簡潔なデータ圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T13:21:18Z) - LongReason: A Synthetic Long-Context Reasoning Benchmark via Context Expansion [20.293369733522983]
LongReasonは、大規模言語モデルの長文推論能力を評価するための総合ベンチマークである。
LongReasonは、3つのタスクカテゴリにまたがる多様な推論パターンを持つ794の多重選択推論質問で構成されている。
LLMをLongReason上で評価した結果,コンテキスト長の増加に伴い,ほとんどのモデルが大幅な性能低下を経験していることが判明した。
論文 参考訳(メタデータ) (2025-01-25T05:32:14Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。