Fugu-MT 論文翻訳(概要): Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs

論文の概要: Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs

arxiv url: http://arxiv.org/abs/2512.13898v1
Date: Mon, 15 Dec 2025 21:01:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-17 16:49:26.492231
Title: Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs
Title（参考訳）: コンテキストに何かを入れよう:Long-Context LLMのためのテスト時間トレーニング
Authors: Rachit Bansal, Aston Zhang, Rishabh Tiwari, Lovish Madaan, Sai Surya Duvvuri, Devvrit Khatri, David Brandfonbrener, David Alvarez-Melis, Prajjwal Bhargava, Mihir Sanjay Kale, Samy Jelassi,
Abstract要約: 予測時間の戦略は、リターンが急速に減少し、長いコンテキストで失敗することを示している。静的自己認識の限界を克服する簡単な方法を提案する。本手法は,LongBench-v2 および ZeroScrolls ベンチマークのサブセットの平均値において,Qwen3-4B に対する 12.6 および 14.1 パーセントの大幅な改善をもたらす。
参考スコア（独自算出の注目度）: 39.99645732873852
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.
Abstract（参考訳）: トレーニングとアーキテクチャ戦略の進歩により、コンテキスト長に数百万のトークンを持つLLMが実現された。しかし、実証的な証拠は、このような長いコンテキストのLLMは、確実に使用できるよりもはるかに多くのテキストを消費できることを示している。一方,多段階推論を含む課題に対して,思考トークンを生成することにより,LLMの性能向上に推論時計算が有効であることが示されている。サンドボックス長文タスクの制御実験により、このような予測時間の戦略は急速に減少し、長いコンテキストで失敗することを示す。我々はこれらの障害が静的な自己注意に固有の現象である希釈値に起因していると考えている。さらに、現在の推論時戦略では、特定の条件下で関連する長文信号を検索できないことを示す。本稿では,静的な自己意識の限界を確実に克服する簡易な手法を提案する。この推論時間計算の使われ方の変化は、モデルと長期コンテキストのベンチマークの間で一貫して大きなパフォーマンス改善をもたらすことが分かっています。本手法は,LongBench-v2 および ZeroScrolls ベンチマークのサブセットの平均値において,Qwen3-4B に対する 12.6 および 14.1 パーセントの大幅な改善をもたらす。長いコンテキストにおいて、コンテキスト固有のトレーニングは、より思考トークンを生成するような現在の推論時間スケーリング戦略よりも、推論計算のより優れた使用方法です。

関連論文リスト

NeedleChain: Measuring Intact Long-Context Reasoning Capability of Large Language Models [7.134358758293254]
Needle-in-a-Haystackベンチマークは、長期文脈(LC)を理解するLarge Language Models(LLM)能力を評価するために広く利用されている。 GPT-4oのような最先端モデルでさえ、クエリ関連10文のみからなる与えられたコンテキストをそのまま組み込むのに苦労していることを実証する。我々は新しいベンチマークである textbfNeedleChain を導入し、そのコンテキストはクエリ関連情報から成り立っている。
論文参考訳（メタデータ） (2025-07-30T06:29:50Z)
100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。 LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文参考訳（メタデータ） (2025-05-25T19:58:31Z)
Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation [15.975325252309554]
本稿では,大規模言語モデルのコンテキストウィンドウを効率的に拡張するための新しい学習後合成データ生成戦略を提案する。我々のアプローチは、利用可能な実世界のデータの長さに制約されずに、任意に長いコンテキスト長まで強固に拡張する。我々は,RULERベンチマークとInfiniteBenchにおいて,最大100万トークンのコンテキスト長を持つモデルの有効性を実証した。
論文参考訳（メタデータ） (2025-04-17T04:46:57Z)
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文参考訳（メタデータ） (2024-11-07T18:59:27Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。コードリポジトリと書籍は長いデータの優れた情報源であることがわかったが、それらと高品質の短文データを組み合わせることが不可欠である。最終モデルであるProLong-8Bは、128Kの同様のサイズのモデル間で、最先端の長文性能を示す。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
In-Context Learning with Long-Context Models: An In-Depth Exploration [92.16922648612807]
大規模なラベル空間を持つ多くのデータセットでは、数千のデモでパフォーマンスが向上し続けています。長文ICLは有効なツールであり,デモセットのエンコーディングに長文を必要としない可能性があることを示す。
論文参考訳（メタデータ） (2024-04-30T21:06:52Z)
Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。