論文の概要: Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment
- arxiv url: http://arxiv.org/abs/2601.14249v1
- Date: Tue, 20 Jan 2026 18:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.461883
- Title: Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment
- Title(参考訳): どの推論軌道が学生により良い推論を教えるか : インフォーマティブ・アライメントの簡易な尺度
- Authors: Yuming Yang, Mingyoung Lai, Wanxu Zhao, Xiaoran Fan, Zhiheng Xi, Mingqi Wu, Chiyue Huang, Jun Zhao, Haijun Lv, Jian Tong, Yunhua Zhou, Yicheng Zou, Qipeng Guo, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: Rank-Surprisal Ratioは、推論軌道の適合性を評価するためにアライメントとインフォメーションの両方をキャプチャする単純な計量である。
軌道選択と教師選択の両方において,その実用性を実証する。
- 参考スコア(独自算出の注目度): 82.00769536768509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long chain-of-thought (CoT) trajectories provide rich supervision signals for distilling reasoning from teacher to student LLMs. However, both prior work and our experiments show that trajectories from stronger teachers do not necessarily yield better students, highlighting the importance of data-student suitability in distillation. Existing methods assess suitability primarily through student likelihood, favoring trajectories that closely align with the model's current behavior but overlooking more informative ones. Addressing this, we propose Rank-Surprisal Ratio (RSR), a simple metric that captures both alignment and informativeness to assess the suitability of a reasoning trajectory. RSR is motivated by the observation that effective trajectories typically combine low absolute probability with relatively high-ranked tokens under the student model, balancing learning signal strength and behavioral alignment. Concretely, RSR is defined as the ratio of a trajectory's average token-wise rank to its average negative log-likelihood, and is straightforward to compute and interpret. Across five student models and reasoning trajectories from 11 diverse teachers, RSR strongly correlates with post-training performance (average Spearman 0.86), outperforming existing metrics. We further demonstrate its practical utility in both trajectory selection and teacher selection.
- Abstract(参考訳): ロングチェーン・オブ・シンクレット(英語版)(CoT)軌道は、教師から学生LLMへの推論を蒸留するための豊富な監視信号を提供する。
しかし, 従来の研究と実験の両方で, より強い教員の軌跡が必ずしもより良い生徒を生み出すとは限らないことが示され, 蒸留におけるデータ学習適性の重要性が浮き彫りになった。
既存の方法は、主に生徒の確率を通じて適合性を評価し、モデルの現在の振る舞いと密接に一致しているが、より情報に富むものを見越す軌跡を好んでいる。
そこで本研究では,アライメントとインフォメーションの両方をキャプチャして,推論軌道の適合性を評価するための簡易な指標であるランク・サプライサル比(RSR)を提案する。
RSRは、学習信号の強度と行動アライメントのバランスを保ちながら、学生モデルの下では、有効な軌道は一般的に低い絶対確率と比較的高いランクのトークンを組み合わせているという観察に動機づけられている。
具体的には、RSRはトラジェクトリの平均トークン単位のランクと平均負の対数類似度との比率として定義され、計算と解釈が容易である。
5つの学生モデルと11人の多様な教師による推論の軌跡にまたがって、RSRは訓練後の成績(平均Spearman 0.86)と強く相関し、既存の指標を上回っている。
さらに, 軌跡選択と教員選択の両面で, その実用性を実証する。
関連論文リスト
- "The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework [16.96094045628127]
CoT(Chain-of-Thought)推論は、大きな言語モデル(LLM)に優れた能力を与えるが、通常は禁止的なパラメータスケールを必要とする。
CoT蒸留は、推論技術をコンパクトな学生モデル(SLM)に伝達するための有望なパラダイムとして登場した。
我々は,教師の勾配を動的に重み付けすることで,教師の指導を適応的に融合させるフレームワークCompactを紹介する。
論文 参考訳(メタデータ) (2026-01-20T14:05:19Z) - Long-Chain Reasoning Distillation via Adaptive Prefix Alignment [57.130176131042965]
本稿では,教師のCoTを適応的接頭辞アライメントによる蒸留に活用するフレームワークを提案する。
P-ALIGNは、残りの接尾辞が簡潔かどうかを判断することで、教師生成の推論軌道を適応的に切り離す。
複数の数学的推論ベンチマークの実験では、P-ALIGNはすべてのベースラインを3%以上上回っている。
論文 参考訳(メタデータ) (2026-01-15T04:40:45Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectory? [13.980638430366625]
推論 LLM は推論プロセスの言語化のために訓練され、複雑なタスクに対して強い利益をもたらす。
重要な前提条件は、他のモデルの部分的思考に基づいて有用性を評価し、構築する能力である。
本稿では,標準の単調訓練パイプラインが望ましい軌道外行動を提供できるか,という課題を考察する。
論文 参考訳(メタデータ) (2025-10-07T19:42:50Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners [12.995634497832027]
より大きな言語モデルから小さな言語モデルへの推論能力の転送は、しばしば反故意に失敗する。
より大きなモデルからのトレースの推論は、学生の分布下では低い確率のトークンを含む。
本稿では,学生に優しい推論トレースを生成するメカニズムであるReverse Speculative Decoding (RSD)を提案する。
論文 参考訳(メタデータ) (2025-09-26T11:40:32Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。