論文の概要: Validity-Calibrated Reasoning Distillation
- arxiv url: http://arxiv.org/abs/2605.04078v1
- Date: Tue, 14 Apr 2026 12:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.57704
- Title: Validity-Calibrated Reasoning Distillation
- Title(参考訳): 有効キャリブレーション蒸留
- Authors: Khouloud Saadi, Di Wang,
- Abstract要約: 推論蒸留は、大規模言語モデルからより小さく、より効率的なものへの多段階推論能力を伝達することを目的としている。
近年の手法は静的教師の階層化と軌道模倣としてのフレーム蒸留に依存している。
本稿では, 局所的な学習信号割り当ての問題として, 推論蒸留を取り扱う枠組みである妥当性校正推論蒸留を提案する。
- 参考スコア(独自算出の注目度): 4.277471273303775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning distillation aims to transfer multi-step reasoning capabilities from large language models to smaller, more efficient ones. While recent methods have shown promising gains, they typically rely on static teacher-student hierarchies and frame distillation as trajectory imitation. This is misaligned with the structure of reasoning, where intermediate steps are often locally under-specified: global correctness constrains the final answer, but does not uniquely determine each intermediate move. We propose validity-calibrated reasoning distillation, a framework that treats reasoning distillation as a problem of local learning-signal allocation rather than path alignment. Instead of enforcing token-level imitation, we compare the student's and teacher's proposed next-step actions under the same prefix and use their relative local validity to modulate the strength of the distillation update. This yields a dynamic, context-dependent supervision mechanism that preserves the teacher's structural guidance while adapting update strength to local reasoning quality. Across mathematical reasoning, code generation, and instruction-following benchmarks, our method consistently outperforms strong distillation baselines. These results indicate that effective LLM reasoning distillation is governed not by rigid trajectory imitation, but by principled, locally calibrated allocation of learning signal.
- Abstract(参考訳): 推論蒸留は、大規模言語モデルからより小さく、より効率的なものへの多段階推論能力を伝達することを目的としている。
最近の手法は有望な利得を示しているが、それらは典型的には静的教師の階層とフレーム蒸留を軌跡模倣として頼っている。
このことは、中間ステップがしばしば局所的に過小評価され、大域的正当性は最終解を制約するが、それぞれの中間移動を一意に決定しない、推論の構造と不一致である。
そこで我々は,経路アライメントよりも局所的な学習信号割り当ての問題として,推論蒸留を取り扱う枠組みである妥当性校正推論蒸留を提案する。
トークンレベルの模倣を強制する代わりに,学生と教師が提案した次のステップのアクションを同じ接頭辞の下で比較し,その相対的局所妥当性を用いて蒸留更新の強度を調節する。
これにより、教師の構造的指導を維持しつつ、更新強度を局所的な推論品質に適応させる動的で文脈に依存した監督機構が得られる。
数学的推論,コード生成,命令追従ベンチマークの他,本手法は強い蒸留基準線を常に上回る。
これらの結果から, LLM蒸留の有効性は, 剛性軌道模倣ではなく, 原理的に局所的校正された学習信号の割り当てによって制御されていることが示唆された。
関連論文リスト
- Learn to Rank: Visual Attribution by Learning Importance Ranking [58.69028273772474]
コンピュータビジョンモデルのための視覚属性マップを生成する新しい手法を提案する。
提案手法は, 任意の数段階の勾配補正を施した1つの前方通過において, 密度の高い画素レベルの属性を生成する。
我々の実験は、一貫した定量的改善と、よりシャープで境界に沿った説明を示す。
論文 参考訳(メタデータ) (2026-04-07T12:53:22Z) - Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models [130.8912476550625]
そこで本研究では, 現場での小型モデル展開のための正の無ラベル(PU)強化学習蒸留法を提案する。
本手法は,教師の好み最適化能力をブラックボックス世代から地元の訓練可能な学生に蒸留する。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T15:14:50Z) - Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models [44.041109669153506]
On-Policy Self-Distillation (OPSD) は、教師と学生の両方がひとつのモデルで、異なるコンテキストを条件付けして機能するフレームワークである。
複数の数学的推論ベンチマークにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2026-01-26T17:56:50Z) - Reasoning Scaffolding: Distilling the Flow of Thought from LLMs [30.569464420145163]
我々は、推論を構造化生成プロセスとして再編成するフレームワークであるReasoning Scaffoldingを紹介します。
本手法は, 精度と論理的整合性の両方において, 最先端の蒸留法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-28T03:49:32Z) - Beyond Scaling Law: A Data-Efficient Distillation Framework for Reasoning [10.186434946738201]
大規模言語モデル(LLM)は、アルゴリズムコーディングや数学的問題解決といったタスクにおいて顕著な推論能力を示す。
近年の手法では,強化学習と教師付き微調整を組み合わせた多段階学習による推論が改良されている。
論文 参考訳(メタデータ) (2025-08-13T15:32:25Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。