論文の概要: HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation
- arxiv url: http://arxiv.org/abs/2603.10359v1
- Date: Wed, 11 Mar 2026 03:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.758035
- Title: HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation
- Title(参考訳): HEAL:高次エントロピー支援による蒸留の推論
- Authors: Wenjing Zhang, Jiangze Yan, Jieyun Huang, Yi Shen, Shuming Shi, Ping Chen, Ning Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian,
- Abstract要約: 本稿では,この推論ギャップを埋めるためのRLフリーフレームワークであるHendsight Entropy-Assisted Learning (HEAL)を提案する。
HEALは3つのコアモジュールを相乗化している:(1)エントロピー・アシスト修復(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR))、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(GEAR)、(PEAR)、(PEAR)、(PEAR)、(PEAR)、(PEAR)、(PEAR)3段階)。
- 参考スコア(独自算出の注目度): 19.13058927652914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilling reasoning capabilities from Large Reasoning Models (LRMs) into smaller models is typically constrained by the limitation of rejection sampling. Standard methods treat the teacher as a static filter, discarding complex "corner-case" problems where the teacher fails to explore valid solutions independently, thereby creating an artificial "Teacher Ceiling" for the student. In this work, we propose Hindsight Entropy-Assisted Learning (HEAL), an RL-free framework designed to bridge this reasoning gap. Drawing on the educational theory of the Zone of Proximal Development(ZPD), HEAL synergizes three core modules: (1) Guided Entropy-Assisted Repair (GEAR), an active intervention mechanism that detects critical reasoning breakpoints via entropy dynamics and injects targeted hindsight hints to repair broken trajectories; (2) Perplexity-Uncertainty Ratio Estimator (PURE), a rigorous filtering protocol that decouples genuine cognitive breakthroughs from spurious shortcuts; and (3) Progressive Answer-guided Curriculum Evolution (PACE), a three-stage distillation strategy that organizes training from foundational alignment to frontier breakthrough. Extensive experiments on multiple benchmarks demonstrate that HEAL significantly outperforms traditional SFT distillation and other baselines.
- Abstract(参考訳): 大規模推論モデル(LRM)から小さなモデルへの蒸留推論能力は、典型的には拒絶サンプリングの制限によって制限される。
標準的な方法は教師を静的フィルタとして扱い、教師が単独で有効なソリューションを探索できない複雑な「コーナーケース」問題を排除し、生徒に人工的な「教師シーリング」を作成する。
本研究では,この推論ギャップを埋めるためのRLフリーフレームワークであるHendsight Entropy-Assisted Learning (HEAL)を提案する。
HEALは, 近親開発ゾーン(ZPD)の教育理論に基づき, (1) エントロピー支援修復(GEAR), (1) エントロピー力学による臨界推論ブレークポイントの検出, 目的のヒンドシーヒントの注入, (2) 複雑度・不確実性比推定(PURE), (2) 真の認知的ブレークスルーを急激なショートカットから分離する厳密なフィルタリングプロトコル, (3) プログレッシブアンサー誘導カリキュラム進化(PACE)という3つのコアモジュールをシナジする。
複数のベンチマークでの大規模な実験により、HEALは従来のSFT蒸留と他のベースラインを著しく上回っていることが示された。
関連論文リスト
- IDLM: Inverse-distilled Diffusion Language Models [70.5793829229702]
Inverse Distillation(逆蒸留)は、もともと連続拡散モデルを加速するために開発された技法で、離散的な設定に拡張する。
理論的観点からは、逆蒸留の目的には一意性保証が欠如しており、これは準最適解に繋がる可能性がある。
Inverse-distilled Diffusion Language Models (IDLM) は推論ステップ数を4x-64x削減する。
論文 参考訳(メタデータ) (2026-02-22T06:47:04Z) - Native Reasoning Models: Training Language Models to Reason on Unverifiable Data [16.065264121785294]
NRT(Native Reasoning Training)は、複雑な推論を育む新しいフレームワークである。
NRTは、推論プロセスを潜在変数として扱うことで、トレーニング問題を再構築する。
NRTは検証不要な手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-12T04:15:46Z) - KEPO: Knowledge-Enhanced Preference Optimization for Reinforcement Learning with Reasoning [24.072603982041798]
強化学習は、大規模言語や視覚言語モデルにおいて、明示的な推論行動を引き起こすための有望なパラダイムとして登場した。
しかしながら、推論指向のRLポストトレーニングは、低軌道レベルの報酬のため、基本的には困難である。
近年のオンライン蒸留法では,教師の集中管理によって最適化の安定化が図られている。
論文 参考訳(メタデータ) (2026-01-30T23:28:37Z) - Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning [48.041170200238206]
DASD-4B-Thinkingは軽量で高機能で完全なオープンソース推論モデルである。
これは、数学、科学的推論、コード生成の挑戦的なベンチマークにおいて、同等規模のオープンソースのモデル間でSOTA性能を達成する。
論文 参考訳(メタデータ) (2026-01-14T02:43:17Z) - The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving [57.652356955571065]
最先端の大規模言語モデル(LLM)パイプラインは、ブートストラップの推論ループに依存している。
我々は、この設計選択が、推論経路上のモデルの分布の崩壊にどのように敏感であるかを分析する。
本稿では,分散創造推論(DCR)について紹介する。これは,解トレースの確率測定を通じて,トレーニングを勾配流としてキャストする,統一的な変分目的である。
論文 参考訳(メタデータ) (2026-01-02T17:10:31Z) - From Reasoning LLMs to BERT: A Two-Stage Distillation Framework for Search Relevance [20.096802351171377]
eコマース検索システムは,大規模言語モデルの直接適用を防止するために,厳格なレイテンシ要件に直面している。
本稿では,LLM から軽量で展開しやすい学生モデルへ推論機能を移行するための2段階推論蒸留フレームワークを提案する。
我々のフレームワークは、複数のメトリクスをまたいだ大幅な改善を実現し、その有効性と実用的価値を検証します。
論文 参考訳(メタデータ) (2025-10-13T06:46:43Z) - Reverse-Engineered Reasoning for Open-Ended Generation [50.35487467267016]
Reverse-Engineered Reasoning (REER)を紹介する。
REERは、試行錯誤や模倣を通じて推論プロセスを構築する代わりに、既知の優れたソリューションから逆向きに働き、それらを生成可能な潜伏的でステップバイステップの深い推論プロセスを発見します。
当社のモデルであるDeepWriter-8Bは、このデータに基づいてトレーニングを行い、強力なオープンソースベースラインを超えるだけでなく、GPT-4oやClaude 3.5といったプロプライエタリなモデルと競合するパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2025-09-07T18:07:58Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - Reasoning with Exploration: An Entropy Perspective [111.0659496612249]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。