論文の概要: Structural Rationale Distillation via Reasoning Space Compression
- arxiv url: http://arxiv.org/abs/2605.07139v1
- Date: Fri, 08 May 2026 02:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.743781
- Title: Structural Rationale Distillation via Reasoning Space Compression
- Title(参考訳): 宇宙圧縮反応による構造Rationale蒸留
- Authors: Jialin Yang, Jiankun Wang, Jiajun Wu, Henry Leung, Jiayu Zhou, Steve Drew,
- Abstract要約: 推論パス圧縮(Reasoning Path Compression)は、教師が再利用可能な高レベル推論パスのコンパクトで動的に維持されたバンクに従うことを制約する。
各トレーニング質問に対して、D-RPCは教師が従うべき最も関連性の高いパスと条件を検索し、類似した問題に一貫性があり、異なる問題タイプをカバーするのに十分な多様な合理性を生み出す。
- 参考スコア(独自算出の注目度): 34.91106623292321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When distilling reasoning from large language models (LLMs) into smaller ones, teacher rationales for similar problems often vary wildly in structure and strategy. Like a chef who makes the same dish differently each time, this inconsistency burdens the student with noisy supervision that is hard to internalize. We propose Distillation through Reasoning Path Compression (D-RPC), which constrains the teacher to follow a compact, dynamically maintained bank of reusable high-level reasoning paths. For each training question, D-RPC retrieves the most relevant path and conditions the teacher to follow it, producing rationales that are consistent across similar problems yet diverse enough to cover different problem types. A PAC-Bayes analysis formalizes the resulting trade-off between bank size and coverage: smaller banks reduce supervision entropy but risk coverage gaps, and the generalization bound identifies an optimal intermediate size confirmed by our ablations. Across five math and commonsense reasoning benchmarks with two student models, D-RPC consistently outperforms chain-of-thought distillation, freeform rationale generation, direct distillation, and structured-supervision baselines, while using fewer tokens than template-heavy alternatives.
- Abstract(参考訳): 大きな言語モデル(LLM)からより小さな言語に推論を蒸留する場合、同様の問題に対する教師の合理性は構造や戦略において大きく異なることが多い。
毎回同じ料理を作るシェフのように、この不整合は内密化が難しい騒々しい監督を学生に負担する。
本稿では,教師が再利用可能な高レベル推論経路のコンパクトで動的に維持されたバンクに従うことを制約するReasoning Path Compression (D-RPC)による蒸留を提案する。
各トレーニング質問に対して、D-RPCは教師が従うべき最も関連性の高いパスと条件を検索し、類似した問題に一貫性があるが、異なる問題タイプをカバーするのに十分な多様な合理性を生成する。
PAC-Bayes分析は、銀行規模とカバー範囲のトレードオフを形式化し、より小さな銀行は監督エントロピーを減らし、リスクカバレッジのギャップを減らし、一般化バウンダリは、当社の廃止によって確認された最適な中間サイズを特定する。
5つの数学および常識推論ベンチマークと2つの学生モデルにおいて、D-RPCは、テンプレート重の代替品よりも少ないトークンを使用しながら、チェーン・オブ・シンクの蒸留、フリーフォームの合理化、直接蒸留、構造化されたスーパービジョンのベースラインを一貫して上回っている。
関連論文リスト
- Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding [25.81162875653095]
我々は,予測パープレキシティに基づくスコアリングとビームサーチによって導かれるステップワイズ推論合成を行う,協調型マルチ教師デコーディングフレームワークであるCoRDを紹介する。
実験の結果,CoRDは質の高い推論データを生成し,教師レベルに近い成績を得られた。
論文 参考訳(メタデータ) (2026-05-04T07:26:41Z) - One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement [37.27419953581617]
大きな言語モデル(LLM)は、しばしば潜伏する推論機能を利用することができない。
本稿では推論時間アライメントタスクとして推論誘発を扱うモジュラーフレームワークReQueRを提案する。
論文 参考訳(メタデータ) (2026-04-28T09:52:21Z) - PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - "The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework [16.96094045628127]
CoT(Chain-of-Thought)推論は、大きな言語モデル(LLM)に優れた能力を与えるが、通常は禁止的なパラメータスケールを必要とする。
CoT蒸留は、推論技術をコンパクトな学生モデル(SLM)に伝達するための有望なパラダイムとして登場した。
我々は,教師の勾配を動的に重み付けすることで,教師の指導を適応的に融合させるフレームワークCompactを紹介する。
論文 参考訳(メタデータ) (2026-01-20T14:05:19Z) - Distilling the Implicit Multi-Branch Structure in LLMs' Reasoning via Reinforcement Learning [63.888013006686364]
教師による微調整(SFT)による教師から生徒への推論経路の蒸留は、大規模言語モデル(LLM)の推論能力を向上させるショートカットを提供する。
GSRM(Generative Structure Reward Model)による強化学習に基づく蒸留フレームワークRLKDを提案する。
GSRMは、推論パスを複数のメタ推論解決ステップに変換し、報酬を計算して、学生と教師の推論の構造的アライメントを測定する。
論文 参考訳(メタデータ) (2025-05-22T02:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。