論文の概要: Long-Chain Reasoning Distillation via Adaptive Prefix Alignment
- arxiv url: http://arxiv.org/abs/2601.10064v1
- Date: Thu, 15 Jan 2026 04:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.98775
- Title: Long-Chain Reasoning Distillation via Adaptive Prefix Alignment
- Title(参考訳): アダプティブプレフィックスアライメントによる長鎖推論蒸留
- Authors: Zhenghao Liu, Zhuoyang Wu, Xinze Li, Yukun Yan, Shuo Wang, Zulong Chen, Yu Gu, Ge Yu, Maosong Sun,
- Abstract要約: 本稿では,教師のCoTを適応的接頭辞アライメントによる蒸留に活用するフレームワークを提案する。
P-ALIGNは、残りの接尾辞が簡潔かどうかを判断することで、教師生成の推論軌道を適応的に切り離す。
複数の数学的推論ベンチマークの実験では、P-ALIGNはすべてのベースラインを3%以上上回っている。
- 参考スコア(独自算出の注目度): 57.130176131042965
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable reasoning capabilities, particularly in solving complex mathematical problems. Recent studies show that distilling long reasoning trajectories can effectively enhance the reasoning performance of small-scale student models. However, teacher-generated reasoning trajectories are often excessively long and structurally complex, making them difficult for student models to learn. This mismatch leads to a gap between the provided supervision signal and the learning capacity of the student model. To address this challenge, we propose Prefix-ALIGNment distillation (P-ALIGN), a framework that fully exploits teacher CoTs for distillation through adaptive prefix alignment. Specifically, P-ALIGN adaptively truncates teacher-generated reasoning trajectories by determining whether the remaining suffix is concise and sufficient to guide the student model. Then, P-ALIGN leverages the teacher-generated prefix to supervise the student model, encouraging effective prefix alignment. Experiments on multiple mathematical reasoning benchmarks demonstrate that P-ALIGN outperforms all baselines by over 3%. Further analysis indicates that the prefixes constructed by P-ALIGN provide more effective supervision signals, while avoiding the negative impact of redundant and uncertain reasoning components. All code is available at https://github.com/NEUIR/P-ALIGN.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に複雑な数学的問題を解く際、顕著な推論能力を示した。
近年の研究では, 蒸留における長期推理軌道は, 小規模学生モデルの推理性能を効果的に向上させることが示されている。
しかし、教師が生み出す推論の軌跡は、しばしば過度に長く、構造的に複雑であり、学生モデルを学ぶのが困難である。
このミスマッチは、提供された監視信号と学生モデルの学習能力のギャップにつながる。
この課題に対処するために,教師のCoTを適応的接頭辞アライメントにより完全に活用するフレームワークであるPrefix-ALIGNment distillation (P-ALIGN)を提案する。
具体的には、P-ALIGNは、教師が生成した推論軌跡を適応的に切り離し、残りの接尾辞が簡潔で、学生モデルを導くのに十分かどうかを判断する。
そして、P-ALIGNは教師が作成したプレフィックスを利用して生徒モデルを監督し、効果的なプレフィックスアライメントを促進する。
複数の数学的推論ベンチマークの実験では、P-ALIGNはすべてのベースラインを3%以上上回っている。
さらに分析したところ、P-ALIGNによって構築された接頭辞は、冗長で不確実な推論成分の負の影響を回避しつつ、より効果的な監視信号を提供することが示された。
すべてのコードはhttps://github.com/NEUIR/P-ALIGNで入手できる。
関連論文リスト
- Learning When to Stop: Adaptive Latent Reasoning via Reinforcement Learning [7.669927190506031]
本研究では適応長潜時推論モデルを開発し,SFT後補強学習手法を提案する。
Llama 3.2 1BモデルとGSM8K-Augデータセットの実験では、合計推理長さが52%$ダウンし、精度にペナルティはない。
論文 参考訳(メタデータ) (2025-11-26T16:54:06Z) - From Correction to Mastery: Reinforced Distillation of Large Language Model Agents [13.982204994247718]
大規模言語モデルエージェントは反復的推論とツールの使用を通じて複雑なタスクの解決に長けている。
既存の蒸留手法は、小規模の生徒に完全な教師の軌跡を模倣するように訓練する。
本研究では,教師が最初期の誤りのみを訂正する学習者中心のフレームワークであるSCoReを提案する。
論文 参考訳(メタデータ) (2025-09-12T15:34:07Z) - Merge-of-Thought Distillation [23.53356244978525]
マージ・オブ・ソート蒸留(Merge-of-Thought Distillation、MoT)は、教師固有の教師付き微調整ブランチと、結果として生じる生徒の変種をマージする重み空間を代替する軽量フレームワークである。
競合数学のベンチマークでは、Qwen3-14Bの学生にMoTを適用すると、Deepseek-R1、Qwen3-32B、OpenAI-O1といった強力なモデルを超える。
MoTは、最高の単教師蒸留よりも優れており、数学以外の一般的な推論を改善し、分散シフトとピアレベルの教師に対して堅牢性を示している。
論文 参考訳(メタデータ) (2025-09-10T17:46:57Z) - NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks [65.70224757972068]
本研究では,NaturalReasoningからの質問のプールに基づいて,強力な教師モデルから推論トレースを選択する。
データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインであることに気付きました。
より多様な推論戦略を必要とする難しい事例を選択することは、教師モデルの推論スキルを伝達するよりサンプル効率が高いことが判明した。
論文 参考訳(メタデータ) (2025-07-02T17:30:24Z) - Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection [64.73809794561305]
errOr-aware self-ReflectION (ORION) は、エラー・アウェア・リフレクション(Error-Aware Reflection)プロセスを通じて教師のCoTを洗練するフレームワークである。
複数の数学的推論ベンチマークの実験では、ORIONはすべてのベースラインに対して2%以上パフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-28T08:57:03Z) - Distilling the Implicit Multi-Branch Structure in LLMs' Reasoning via Reinforcement Learning [63.888013006686364]
教師による微調整(SFT)による教師から生徒への推論経路の蒸留は、大規模言語モデル(LLM)の推論能力を向上させるショートカットを提供する。
GSRM(Generative Structure Reward Model)による強化学習に基づく蒸留フレームワークRLKDを提案する。
GSRMは、推論パスを複数のメタ推論解決ステップに変換し、報酬を計算して、学生と教師の推論の構造的アライメントを測定する。
論文 参考訳(メタデータ) (2025-05-22T02:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。