論文の概要: Learning from Partial Chain-of-Thought via Truncated-Reasoning Self-Distillation
- arxiv url: http://arxiv.org/abs/2603.13274v1
- Date: Fri, 27 Feb 2026 06:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.253719
- Title: Learning from Partial Chain-of-Thought via Truncated-Reasoning Self-Distillation
- Title(参考訳): Trncated-Reasoning Self-Distillation による部分鎖からの学習
- Authors: Gianluigi Silvestri, Edoardo Cetin,
- Abstract要約: 本稿では,部分的推論トレースから正しい予測を生成するための軽量なポストトレーニング手法であるTrncated-Reasoning Self-Distillation(TRSD)を紹介する。
TRSDは, 様々な推論モデルに適用した場合, 精度のトレードオフをはるかに低減し, 絡み合った推論に対するロバスト性の向上を実証する。
- 参考スコア(独自算出の注目度): 15.338493974763471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-oriented language models achieve strong performance by generating long chain-of-thought traces at inference time. However, this capability comes with substantial and often excessive computational cost, which can materialize in redundant or inefficient reasoning. We study this setting and introduce Truncated-Reasoning Self-Distillation (TRSD), a lightweight post-training procedure that encourages models to produce correct predictions from partial reasoning traces. In TRSD, a frozen teacher model first generates a full reasoning trace and evaluates the corresponding answer distribution conditioned on the prompt and the complete reasoning to construct a synthetic training target. A student model with the same architecture is then trained to match the teacher's answer distribution while being conditioned only on a truncated prefix of its reasoning trace. Across multiple reasoning benchmarks and token budgets, we demonstrate that TRSD improves robustness to truncated inference, with far reduced accuracy tradeoffs when applied to a diverse set of reasoning models. Moreover, although never explicitly regularized for shorter generation during training, we also find that TRSD-trained models inherently output shorter reasoning traces without truncation, significantly reducing inference-time costs even without artificial interventions.
- Abstract(参考訳): 推論時間に長い連鎖トレースを生成することで、推論指向の言語モデルは、強い性能を達成する。
しかし、この能力にはかなりの計算コストとしばしば過剰な計算コストがあり、冗長あるいは非効率な推論で実現することができる。
本稿では,この設定と,部分的推論トレースから正しい予測を生成するための軽量なポストトレーニング手順であるTrncated-Reasoning Self-Distillation(TRSD)を紹介する。
TRSDでは、凍結教師モデルがまず完全な推論トレースを生成し、プロンプトと完全推論に基づいて対応する回答分布を評価し、合成訓練目標を構築する。
同じアーキテクチャを持つ学生モデルは、教師の回答分布に適合するように訓練され、推論トレースの切り捨てられたプレフィックスにのみ条件付けされる。
複数の推論ベンチマークとトークン予算にわたって、TRSDは、様々な推論モデルに適用した場合、はるかに精度のトレードオフを低減し、切り離された推論に対する堅牢性を向上することを示した。
さらに,TRSD学習モデルでは,訓練中の短い世代を明示的に正規化することは無かったが,トランケーションのない短い推論トレースを本質的に出力し,人工的介入を伴わずとも推論時間コストを著しく低減することがわかった。
関連論文リスト
- Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought [49.203970812338916]
明示的な推論連鎖は、かなりの計算冗長性をもたらす。
近年の潜時推論法は、推理過程を潜時空間に圧縮することによりこれを緩和しようとする。
我々はRendered CoT-Guided Variational Latent Reasoning (ReGuLaR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T17:08:06Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - ENTRA: Entropy-Based Redundancy Avoidance in Large Language Model Reasoning [30.786062954495403]
大規模な推論モデル(LRM)は、単純なタスクであっても必要以上に長い推論チェーンを生成するため、過度に考え直されることが多い。
本稿では,性能を保ちながら冗長な推論を抑制するエントロピーベースのトレーニングフレームワークであるENTRAを提案する。
論文 参考訳(メタデータ) (2026-01-12T01:26:30Z) - Anti-Length Shift: Dynamic Outlier Truncation for Training Efficient Reasoning Models [29.56923793047279]
本稿では,冗長トークンを選択的に抑制する訓練時間介入であるDynamic Outlier Truncation(DOT)を紹介する。
DOTは、完全に正しいロールアウトグループ内での応答長の極端のみを目標とし、長い水平推論能力を保っている。
提案手法は,初期ポリシーに比べて精度を高くしながら,推論トークンの使用率を78%削減する。
論文 参考訳(メタデータ) (2026-01-07T14:31:07Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。