論文の概要: Merge-of-Thought Distillation
- arxiv url: http://arxiv.org/abs/2509.08814v1
- Date: Wed, 10 Sep 2025 17:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.538923
- Title: Merge-of-Thought Distillation
- Title(参考訳): マージ・オブ・ソート蒸留
- Authors: Zhanming Shen, Zeyu Qin, Zenan Huang, Hao Chen, Jiaqi Hu, Yihong Zhuang, Guoshan Lu, Gang Chen, Junbo Zhao,
- Abstract要約: マージ・オブ・ソート蒸留(Merge-of-Thought Distillation、MoT)は、教師固有の教師付き微調整ブランチと、結果として生じる学生の変種を重み空間にマージする、ライトウェイトなフレームワークである。
競合数学のベンチマークでは、Qwen3-14Bの学生にMoTを適用すると、DEEPSEEK-R1、QWEN3-30B-A3B、QWEN3-32B、OPENAI-O1といった強力なモデルを超える。
MoTは破滅的な忘れを減らし、数学以外の一般的な推論を改善し、より良い教師を育成する。
- 参考スコア(独自算出の注目度): 23.53356244978525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient reasoning distillation for long chain-of-thought (CoT) models is increasingly constrained by the assumption of a single oracle teacher, despite practical availability of multiple candidate teachers and growing CoT corpora. We revisit teacher selection and observe that different students have different "best teachers," and even for the same student the best teacher can vary across datasets. Therefore, to unify multiple teachers' reasoning abilities into student with overcoming conflicts among various teachers' supervision, we propose Merge-of-Thought Distillation (MoT), a lightweight framework that alternates between teacher-specific supervised fine-tuning branches and weight-space merging of the resulting student variants. On competition math benchmarks, using only about 200 high-quality CoT samples, applying MoT to a Qwen3-14B student surpasses strong models including DEEPSEEK-R1, QWEN3-30B-A3B, QWEN3-32B, and OPENAI-O1, demonstrating substantial gains. Besides, MoT consistently outperforms the best single-teacher distillation and the naive multi-teacher union, raises the performance ceiling while mitigating overfitting, and shows robustness to distribution-shifted and peer-level teachers. Moreover, MoT reduces catastrophic forgetting, improves general reasoning beyond mathematics and even cultivates a better teacher, indicating that consensus-filtered reasoning features transfer broadly. These results position MoT as a simple, scalable route to efficiently distilling long CoT capabilities from diverse teachers into compact students.
- Abstract(参考訳): 複数の候補教師が実際に利用可能であり、CoTコーパスが成長しているにもかかわらず、単一オラクル教師の仮定により、CoTモデルに対する効率的な推論蒸留がますます制限されている。
我々は、教師の選択を再考し、異なる学生が異なる「最高の教師」を持っていることを観察し、同じ学生であっても、最高の教師はデータセットによって異なることができる。
そこで, 教師の指導力の対立を克服し, 複数の教師の推論能力を学生に統一するために, 教師固有の指導的微調整ブランチと, 結果として生じる生徒の体重空間の融合を交互に行う軽量フレームワークであるMerge-of-Thought Distillation (MoT)を提案する。
競合数学のベンチマークでは、200ほどの高品質のCoTサンプルしか使用せず、Qwen3-14Bの学生にMoTを適用すると、DEEPSEEK-R1、QWEN3-30B-A3B、QWEN3-32B、OPENAI-O1といった強力なモデルを超える結果となり、大きな成功を収めた。
さらに、MoTは、最高のシングルティーチンガー蒸留とナイーブなマルチティーチンガーユニオンを一貫して上回り、オーバーフィッティングを緩和しながらパフォーマンス天井を高くし、分布シフトとピアレベルの教師に堅牢性を示す。
さらに、MoTは破滅的な忘れを減らし、数学以外の一般的な推論を改善し、より良い教師を育成する。
これらの結果は、MoTを多様な教師からコンパクトな学生に効率よく長いCoT能力を蒸留するための、シンプルでスケーラブルなルートと位置づけている。
関連論文リスト
- Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning [33.02060729778806]
小型言語モデル(SLM)におけるCoT蒸留の影響要因について検討した。
その結果, SLM は粒度と非単調な関係を示し, より微細な推論とより弱いモデルにより, より単純なCoT 監督下でより優れた性能を示すことがわかった。
これらの知見は、特定の学生モデルにCoT戦略を適合させることの必要性を強調し、SLMにおけるCoT蒸留を最適化するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-25T09:08:45Z) - Switching Temporary Teachers for Semi-Supervised Semantic Segmentation [45.20519672287495]
半教師付きセマンティックセグメンテーションで一般的な教師/学生のフレームワークは、主に指数的移動平均(EMA)を用いて、学生の量に基づいて教師の重みを更新する。
本稿では,学生のカップリング問題を軽減するために,2つの臨時教員を兼ねた,シンプルで効果的な方法であるデュアル教師を紹介する。
論文 参考訳(メタデータ) (2023-10-28T08:49:16Z) - Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文 参考訳(メタデータ) (2023-06-28T02:19:35Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Confidence-Aware Multi-Teacher Knowledge Distillation [12.938478021855245]
そこで本研究では,教師の予測に対して,基本トラスラベルの助けを借りて,サンプルの信頼性を適応的に割り当てる,信頼性に配慮した多教師知識蒸留(CA-MKD)を提案する。
私たちのCA-MKDは、様々な教師学生アーキテクチャで比較された最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2021-12-30T11:00:49Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。