論文の概要: Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs
- arxiv url: http://arxiv.org/abs/2512.13898v1
- Date: Mon, 15 Dec 2025 21:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.492231
- Title: Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs
- Title(参考訳): コンテキストに何かを入れよう:Long-Context LLMのためのテスト時間トレーニング
- Authors: Rachit Bansal, Aston Zhang, Rishabh Tiwari, Lovish Madaan, Sai Surya Duvvuri, Devvrit Khatri, David Brandfonbrener, David Alvarez-Melis, Prajjwal Bhargava, Mihir Sanjay Kale, Samy Jelassi,
- Abstract要約: 予測時間の戦略は、リターンが急速に減少し、長いコンテキストで失敗することを示している。
静的自己認識の限界を克服する簡単な方法を提案する。
本手法は,LongBench-v2 および ZeroScrolls ベンチマークのサブセットの平均値において,Qwen3-4B に対する 12.6 および 14.1 パーセントの大幅な改善をもたらす。
- 参考スコア(独自算出の注目度): 39.99645732873852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.
- Abstract(参考訳): トレーニングとアーキテクチャ戦略の進歩により、コンテキスト長に数百万のトークンを持つLLMが実現された。
しかし、実証的な証拠は、このような長いコンテキストのLLMは、確実に使用できるよりもはるかに多くのテキストを消費できることを示している。
一方,多段階推論を含む課題に対して,思考トークンを生成することにより,LLMの性能向上に推論時計算が有効であることが示されている。
サンドボックス長文タスクの制御実験により、このような予測時間の戦略は急速に減少し、長いコンテキストで失敗することを示す。
我々はこれらの障害が静的な自己注意に固有の現象である希釈値に起因していると考えている。
さらに、現在の推論時戦略では、特定の条件下で関連する長文信号を検索できないことを示す。
本稿では,静的な自己意識の限界を確実に克服する簡易な手法を提案する。
この推論時間計算の使われ方の変化は、モデルと長期コンテキストのベンチマークの間で一貫して大きなパフォーマンス改善をもたらすことが分かっています。
本手法は,LongBench-v2 および ZeroScrolls ベンチマークのサブセットの平均値において,Qwen3-4B に対する 12.6 および 14.1 パーセントの大幅な改善をもたらす。
長いコンテキストにおいて、コンテキスト固有のトレーニングは、より思考トークンを生成するような現在の推論時間スケーリング戦略よりも、推論計算のより優れた使用方法です。
関連論文リスト
- 100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。
LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。
長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文 参考訳(メタデータ) (2025-05-25T19:58:31Z) - Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。