論文の概要: Context Length Alone Hurts LLM Performance Despite Perfect Retrieval
- arxiv url: http://arxiv.org/abs/2510.05381v1
- Date: Mon, 06 Oct 2025 21:17:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.988952
- Title: Context Length Alone Hurts LLM Performance Despite Perfect Retrieval
- Title(参考訳): 完全検索にもかかわらず、文脈長がLLM性能を損なう
- Authors: Yufeng Du, Minyang Tian, Srikanth Ronanki, Subendhu Rongali, Sravan Bodapati, Aram Galstyan, Azton Wells, Roy Schwartz, Eliu A Huerta, Hao Peng,
- Abstract要約: 大規模言語モデル(LLM)は、サポート対象のコンテキスト長に合わせて、長いコンテキストタスクのパフォーマンスをスケールできないことが多い。
本稿では,この問題に対する回答が否定的である可能性が示唆された。
- 参考スコア(独自算出の注目度): 29.523005523787244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often fail to scale their performance on long-context tasks performance in line with the context lengths they support. This gap is commonly attributed to retrieval failures -- the models' inability to identify relevant information in the long inputs. Accordingly, recent efforts often focus on evaluating and improving LLMs' retrieval performance: if retrieval is perfect, a model should, in principle, perform just as well on a long input as it does on a short one -- or should it? This paper presents findings that the answer to this question may be negative. Our systematic experiments across 5 open- and closed-source LLMs on math, question answering, and coding tasks reveal that, even when models can perfectly retrieve all relevant information, their performance still degrades substantially (13.9%--85%) as input length increases but remains well within the models' claimed lengths. This failure occurs even when the irrelevant tokens are replaced with minimally distracting whitespace, and, more surprisingly, when they are all masked and the models are forced to attend only to the relevant tokens. A similar performance drop is observed when all relevant evidence is placed immediately before the question. Our findings reveal a previously-unrealized limitation: the sheer length of the input alone can hurt LLM performance, independent of retrieval quality and without any distraction. They motivate our simple, model-agnostic mitigation strategy that transforms a long-context task into a short-context one by prompting the model to recite the retrieved evidence before attempting to solve the problem. On RULER, we observe a consistent improvement of GPT-4o up to 4% on an already strong baseline.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長文タスクのパフォーマンスを、サポート対象のコンテキストの長さに合わせてスケールできないことが多い。
このギャップは一般的に、長い入力で関連する情報を識別できないモデルによる検索失敗によるものである。従って、最近の取り組みでは、LLMの検索性能の評価と改善に重点を置いている。
本稿では,この問題に対する回答が否定的である可能性が示唆された。
数学、質問応答、コーディングタスクに関する5つのオープンおよびクローズド・ソース LLM の体系的な実験により、モデルがすべての関連情報を完全に取り出すことができたとしても、入力長が増加するにつれて性能は大幅に低下する(13.9%~85%)が、モデルが主張する長さの範囲内では良好に保たれていることが判明した。
この失敗は、無関係なトークンが最小限に散らばるホワイトスペースに置き換えられた場合でも発生し、さらに驚くべきことに、すべてのトークンがマスクされ、モデルが関連するトークンにのみ参加せざるを得なくなる。
関連するすべての証拠が質問の直前に置かれると、同様の性能低下が観測される。
入力の重みだけはLLMの性能を損なうことがあり, 検索品質とは無関係であり, 注意を払わない。
彼らは、長いコンテキストタスクを短いコンテキストに変換する、単純でモデルに依存しない緩和戦略を動機付けます。
RULERでは,すでに強いベースライン上でGPT-4oを最大4%改善する。
関連論文リスト
- Positional Biases Shift as Inputs Approach Context Window Limits [57.00239097102958]
入力がモデルのコンテキストウィンドウの最大50%を占める場合、LiM効果は最強となる。
関係情報が入力の終端に近づくと,モデルの性能が向上する,距離に基づくバイアスが観測される。
論文 参考訳(メタデータ) (2025-08-10T20:40:24Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? [2.1861408994125253]
大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。
最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
論文 参考訳(メタデータ) (2024-10-14T13:10:45Z) - Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models [48.35385912526338]
本稿では,入力長がLarge Language Models(LLMs)の能力に与える影響について検討する。
同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパディングで拡張した。
劣化傾向はデータセットのすべてのバージョンに現れるが、強度は異なる。
論文 参考訳(メタデータ) (2024-02-19T16:04:53Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。