論文の概要: MIND: From Passive Mimicry to Active Reasoning through Capability-Aware Multi-Perspective CoT Distillation
- arxiv url: http://arxiv.org/abs/2601.03717v1
- Date: Wed, 07 Jan 2026 09:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.384121
- Title: MIND: From Passive Mimicry to Active Reasoning through Capability-Aware Multi-Perspective CoT Distillation
- Title(参考訳): MIND:多官能性CoT蒸留によるパッシブミミリーからアクティブ推論へ
- Authors: Jin Cui, Jiaqi Guo, Jiepeng Zhou, Ruixuan Yang, Jiayi Lu, Jiajun Xu, Jiangcheng Song, Boran Zhao, Pengju Ren,
- Abstract要約: 既存のアプローチでは、学生は一つの黄金の合理性に従うことを制限し、異なる推論経路を個別に扱う。
このミスアライメントは、学生の潜在的推論分布を劣化させ、最適以下のパフォーマンスを引き起こす。
我々は,受動的模倣から能動的認知構築へ移行する能力フィルタリングフレームワーク MIND を提案する。
- 参考スコア(独自算出の注目度): 16.96094045628127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have emerged with remarkable capabilities in complex tasks through Chain-of-Thought reasoning, practical resource constraints have sparked interest in transferring these abilities to smaller models. However, achieving both domain performance and cross-domain generalization remains challenging. Existing approaches typically restrict students to following a single golden rationale and treat different reasoning paths independently. Due to distinct inductive biases and intrinsic preferences, alongside the student's evolving capacity and reasoning preferences during training, a teacher's "optimal" rationale could act as out-of-distribution noise. This misalignment leads to a degeneration of the student's latent reasoning distribution, causing suboptimal performance. To bridge this gap, we propose MIND, a capability-adaptive framework that transitions distillation from passive mimicry to active cognitive construction. We synthesize diverse teacher perspectives through a novel "Teaching Assistant" network. By employing a Feedback-Driven Inertia Calibration mechanism, this network utilizes inertia-filtered training loss to align supervision with the student's current adaptability, effectively enhancing performance while mitigating catastrophic forgetting. Extensive experiments demonstrate that MIND achieves state-of-the-art performance on both in-distribution and out-of-distribution benchmarks, and our sophisticated latent space analysis further confirms the mechanism of reasoning ability internalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、Chain-of-Thought推論を通じて複雑なタスクにおいて顕著な機能を持つようになったが、現実的なリソース制約は、これらの能力をより小さなモデルに移行することへの関心を喚起している。
しかし、ドメインパフォーマンスとクロスドメインの一般化の両方を達成することは依然として困難である。
既存のアプローチでは、学生は単一の黄金の合理性に従うことを制限し、異なる推論経路を独立して扱うのが一般的である。
独特な帰納的偏見と本質的な嗜好、学生の発達能力と訓練中の推論的嗜好により、教師の「最適」理性は配布外ノイズとして振る舞うことができた。
このミスアライメントは、学生の潜在的推論分布を劣化させ、最適以下のパフォーマンスを引き起こす。
このギャップを埋めるために,受動的模倣から能動的認知構築へ蒸留を移行させる能力適応型フレームワーク MIND を提案する。
我々は,教師の多様な視点を,新しい「教師支援」ネットワークを通じて合成する。
このネットワークは、フィードバック駆動型慣性校正機構を用いることで、慣性フィルターによるトレーニング損失を利用して、生徒の現在の適応性と監督を整合させ、破滅的な忘れを軽減しつつ、パフォーマンスを効果的に向上させる。
広汎な実験により, MINDは分布内および分布外の両方で最先端の性能を達成し, 高度な潜在空間解析により推論能力の内在化のメカニズムをさらに確認した。
関連論文リスト
- From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - How LLMs Learn to Reason: A Complex Network Perspective [14.638878448692493]
Reinforcement Learning from Verifiable Rewards による大規模言語モデルのトレーニングは、突飛な振る舞いのセットを示している。
この現象は単一統一理論を用いて説明できると考えられる。
私たちの研究は、将来のAIシステムの創発的な推論能力をエンジニアリングするための新しい物理的直感を提供します。
論文 参考訳(メタデータ) (2025-09-28T04:10:37Z) - Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought [64.43689151961054]
有向グラフ到達性問題に対する簡易な2層変圧器のトレーニング力学を理論的に解析する。
分析の結果,連続的思考を用いたトレーニングでは,まずインデックスマッチングロジットが増加し,その後は軽度な仮定の下で拘束されることがわかった。
論文 参考訳(メタデータ) (2025-09-27T15:23:46Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。