論文の概要: Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning
- arxiv url: http://arxiv.org/abs/2605.20201v1
- Date: Mon, 06 Apr 2026 16:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.966583
- Title: Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning
- Title(参考訳): Proxy-based Chain-of-Thought TuningによるLong-Context Reasoning
- Authors: Miao Li, Irina Saparina, Alexander Gurung, Mirella Lapata,
- Abstract要約: ProxyCoTは、短いプロキシコンテキストから完全な長いコンテキストへ推論機能を移行するトレーニングフレームワークである。
ProxyCoTは計算オーバーヘッドを減らして高いベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 81.89404347890662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models support inputs of up to 10 million tokens, yet they perform poorly on long-context tasks that require complex reasoning. Such tasks can be solved using only a subset of the input -- a proxy context -- rather than the full sequence. Despite sharing the same underlying reasoning process, models exhibit a significant performance disparity between proxy and full contexts. To improve long-context reasoning, we propose ProxyCoT, a novel training framework that transfers reasoning capabilities from short proxy contexts to full long contexts. Specifically, we first obtain high-quality chain-of-thought reasoning traces on proxy contexts through reinforcement learning or distillation from a larger teacher model, and then ground the generated traces in full long contexts with supervised fine-tuning. Experiments across different datasets demonstrate that ProxyCoT consistently outperforms strong baselines with reduced computational overhead. Furthermore, models trained with ProxyCoT generalize their long-context reasoning capabilities to out-of-domain tasks.
- Abstract(参考訳): 最近の大規模言語モデルは、最大1000万のトークンの入力をサポートするが、複雑な推論を必要とする長いコンテキストタスクではうまく機能しない。
このようなタスクは、完全なシーケンスではなく、入力のサブセット -- プロキシコンテキスト -- を使用して解決できる。
同じ推論プロセスを共有するにもかかわらず、モデルはプロキシとフルコンテキストの間に大きなパフォーマンスの相違を示す。
長文推論を改善するために、短いプロキシコンテキストから完全な長文コンテキストへ推論機能を移行する新しいトレーニングフレームワークであるProxyCoTを提案する。
具体的には、まず、より大規模な教師モデルからの強化学習や蒸留を通じて、プロキシコンテキストに基づく高品質な連鎖推論トレースを取得し、その後、教師付き微調整により、生成したトレースをフルロングコンテキストでグラウンド化する。
異なるデータセットにわたる実験では、ProxyCoTは計算オーバーヘッドを減らして、強いベースラインを一貫して上回っている。
さらに、ProxyCoTでトレーニングされたモデルは、長いコンテキスト推論機能をドメイン外のタスクに一般化する。
関連論文リスト
- Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding [25.81162875653095]
我々は,予測パープレキシティに基づくスコアリングとビームサーチによって導かれるステップワイズ推論合成を行う,協調型マルチ教師デコーディングフレームワークであるCoRDを紹介する。
実験の結果,CoRDは質の高い推論データを生成し,教師レベルに近い成績を得られた。
論文 参考訳(メタデータ) (2026-05-04T07:26:41Z) - RecaLLM: Addressing the Lost-in-Thought Phenomenon with Explicit In-Context Retrieval [0.8594140167290097]
RecaLLMは、長文情報を効果的に活用するために訓練後の推論言語モデルのセットである。
我々は,証拠の冗長な複写を可能にする,無視可能な制約付き復号化機構を導入する。
最大128Kトークンのコンテキストウィンドウにおいて、最大10Kトークンのトレーニングサンプルを使用して一貫したゲインを観察する。
論文 参考訳(メタデータ) (2026-04-10T17:04:32Z) - Predicting Task Performance with Context-aware Scaling Laws [56.6850444554434]
本稿では、トレーニング計算と提供されたコンテキストの関数として、下流のパフォーマンスを協調的にモデル化する、単純かつ解釈可能なフレームワークを提案する。
我々は,Llama-2-7BおよびLlama-2-13Bの拡張コンテキスト変種について,観測された下流性能に適合させることで,我々の枠組みを実証的に検証した。
以上の結果から,我々のフレームワークは,配信中のダウンストリーム性能を正確にモデル化し,トレーニング計算において3桁の規模で一般化し,コンテキストの増大とともに性能を確実に外挿することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:35:18Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision [40.63870977649693]
Chain-of-Thoughtプロンプトは、多段階推論を約束するが、長文シナリオの有効性は未検討のままである。
本稿では,LongRePSを提案する。LongRePSは,長いコンテキスト性能を向上させるための高品質な推論経路をモデルに教えるフレームワークである。
本フレームワークには,推論パスをブートストラップする自己サンプリング機構と,長期シナリオ用に設計された新しい品質評価プロトコルが組み込まれている。
論文 参考訳(メタデータ) (2025-02-28T07:15:12Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。