論文の概要: "The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework
- arxiv url: http://arxiv.org/abs/2601.13992v1
- Date: Tue, 20 Jan 2026 14:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.342131
- Title: "The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework
- Title(参考訳): The Whole is Greater than the Sum of Its Parts: A Compatibility-Aware Multi-Teacher CoT Distillation Framework
- Authors: Jin Cui, Jiaqi Guo, Jiepeng Zhou, Ruixuan Yang, Jiayi Lu, Jiajun Xu, Jiangcheng Song, Boran Zhao, Pengju Ren,
- Abstract要約: CoT(Chain-of-Thought)推論は、大きな言語モデル(LLM)に優れた能力を与えるが、通常は禁止的なパラメータスケールを必要とする。
CoT蒸留は、推論技術をコンパクトな学生モデル(SLM)に伝達するための有望なパラダイムとして登場した。
我々は,教師の勾配を動的に重み付けすることで,教師の指導を適応的に融合させるフレームワークCompactを紹介する。
- 参考スコア(独自算出の注目度): 16.96094045628127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) reasoning empowers Large Language Models (LLMs) with remarkable capabilities but typically requires prohibitive parameter scales. CoT distillation has emerged as a promising paradigm to transfer reasoning prowess into compact Student Models (SLMs), but existing approaches often rely on a solitary teacher, capping the student's potential since individual LLMs often exhibit distinct capability biases and may suffer from catastrophic forgetting. While leveraging diverse teachers seems appealing, effectively fusing their supervisions remains challenging: teacher-student incompatibility risks amplifying hallucinations, and passive supervision fails to ensure genuine logic internalization. To address this, we introduce COMPACT, a framework that adaptively fuses supervisions from different teachers by dynamically weighting teacher gradients based on the student's real-time compatibility evaluated by a multi-dimensional metric: (1) Graph-based Consensus to filter misleading rationales by identifying mainstream reasoning paths; (2) Mutual-Information-based Adaptability to detect "epiphany moments" for genuinely understanding the reasoning process rather than merely imitating; and (3) Loss-based Difficulty to assess student receptivity to the teacher's guidance and prevent negative transfer. Extensive experiments and latent space analysis demonstrate that COMPACT effectively integrates diverse reasoning capabilities without damaging the model's original knowledge structure, achieving state-of-the-art performance on various benchmarks while mitigating catastrophic forgetting.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、大きな言語モデル(LLM)に優れた能力を与えるが、通常は禁止的なパラメータスケールを必要とする。
CoT蒸留は、推論技術をコンパクトな学生モデル(SLM)に移行するための有望なパラダイムとして現れてきたが、既存のアプローチは、単独の教師に頼っていることが多く、個々のLSMは、しばしば異なる能力バイアスを示し、破滅的な忘れ込みに悩まされるため、生徒のポテンシャルを抑える。
多様な教師の活用は魅力的に思えるが、教師の学生の非互換性は幻覚を増幅し、受動的監督は真の論理的内部化を保証するのに失敗する。
そこで我々は,教師の指導を動的に重み付けすることで,教師の指導を適応的に融合させるフレームワークCompactを紹介した。(1) 主流の推論経路を特定することによって,誤解を招く有理をフィルタリングするグラフベースの合意,(2) 模倣ではなく推論過程を真に理解する「啓発的モーメント」を検出するための相互情報に基づく適応性,(3) 教師の指導に対する学生の受容性を評価することの難しさ,および負の伝達を防止すること。
大規模な実験と潜在空間分析により、Compactはモデルの本来の知識構造を損なうことなく、様々な推論能力を効果的に統合し、様々なベンチマークで最先端のパフォーマンスを達成し、破滅的な忘れを緩和することを示した。
関連論文リスト
- Long-Chain Reasoning Distillation via Adaptive Prefix Alignment [57.130176131042965]
本稿では,教師のCoTを適応的接頭辞アライメントによる蒸留に活用するフレームワークを提案する。
P-ALIGNは、残りの接尾辞が簡潔かどうかを判断することで、教師生成の推論軌道を適応的に切り離す。
複数の数学的推論ベンチマークの実験では、P-ALIGNはすべてのベースラインを3%以上上回っている。
論文 参考訳(メタデータ) (2026-01-15T04:40:45Z) - MIND: From Passive Mimicry to Active Reasoning through Capability-Aware Multi-Perspective CoT Distillation [16.96094045628127]
既存のアプローチでは、学生は一つの黄金の合理性に従うことを制限し、異なる推論経路を個別に扱う。
このミスアライメントは、学生の潜在的推論分布を劣化させ、最適以下のパフォーマンスを引き起こす。
我々は,受動的模倣から能動的認知構築へ移行する能力フィルタリングフレームワーク MIND を提案する。
論文 参考訳(メタデータ) (2026-01-07T09:08:59Z) - From Reasoning LLMs to BERT: A Two-Stage Distillation Framework for Search Relevance [20.096802351171377]
eコマース検索システムは,大規模言語モデルの直接適用を防止するために,厳格なレイテンシ要件に直面している。
本稿では,LLM から軽量で展開しやすい学生モデルへ推論機能を移行するための2段階推論蒸留フレームワークを提案する。
我々のフレームワークは、複数のメトリクスをまたいだ大幅な改善を実現し、その有効性と実用的価値を検証します。
論文 参考訳(メタデータ) (2025-10-13T06:46:43Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - TRiCo: Triadic Game-Theoretic Co-Training for Robust Semi-Supervised Learning [15.638836465479619]
TRiCoは、半教師付き学習の構造を再考する、三進的ゲーム理論の共同学習フレームワークである。
既存のSSLフレームワークにおける重要な制限に対処することによって、TRiCoは原則付き、一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-25T20:10:41Z) - Merge-of-Thought Distillation [23.53356244978525]
マージ・オブ・ソート蒸留(Merge-of-Thought Distillation、MoT)は、教師固有の教師付き微調整ブランチと、結果として生じる生徒の変種をマージする重み空間を代替する軽量フレームワークである。
競合数学のベンチマークでは、Qwen3-14Bの学生にMoTを適用すると、Deepseek-R1、Qwen3-32B、OpenAI-O1といった強力なモデルを超える。
MoTは、最高の単教師蒸留よりも優れており、数学以外の一般的な推論を改善し、分散シフトとピアレベルの教師に対して堅牢性を示している。
論文 参考訳(メタデータ) (2025-09-10T17:46:57Z) - Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection [64.73809794561305]
errOr-aware self-ReflectION (ORION) は、エラー・アウェア・リフレクション(Error-Aware Reflection)プロセスを通じて教師のCoTを洗練するフレームワークである。
複数の数学的推論ベンチマークの実験では、ORIONはすべてのベースラインに対して2%以上パフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-28T08:57:03Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - Contrastive Knowledge Amalgamation for Unsupervised Image Classification [2.6392087010521728]
Contrastive Knowledge Amalgamation (CKA) は、複数の教師モデルから協調目的を扱うためのコンパクトな学生モデルを学ぶことを目的としている。
クラス内モデルとクラス間モデルとの対比損失は、異なるクラスの表現間の距離を拡大するように設計されている。
このアライメント損失は、共通表現空間における教師/学生モデルのサンプルレベルの分布差を最小限に抑えるために導入された。
論文 参考訳(メタデータ) (2023-07-27T11:21:14Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models [55.137869702763375]
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。
次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
論文 参考訳(メタデータ) (2022-10-11T07:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。