論文の概要: Exploring Knowledge Purification in Multi-Teacher Knowledge Distillation for LLMs
- arxiv url: http://arxiv.org/abs/2602.01064v1
- Date: Sun, 01 Feb 2026 07:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.571692
- Title: Exploring Knowledge Purification in Multi-Teacher Knowledge Distillation for LLMs
- Title(参考訳): LLMのためのマルチ教師知識蒸留における知識浄化の探索
- Authors: Ruihan Jin, Pengpeng Shao, Zhengqi Wen, Jinyang Wu, Mingkuan Feng, Shuo Yang, Chu Yuan Zhang, Jianhua Tao,
- Abstract要約: 我々は,複数のLLM教師の合理性を1つの合理化に集約するtextbfKnowledge Purificationの概念を導入する。
実験により, これらの手法は蒸留モデルの性能を向上させるだけでなく, 知識衝突を効果的に軽減することを示した。
- 参考スコア(独自算出の注目度): 30.543860587982895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has emerged as a pivotal technique for transferring knowledge from stronger large language models (LLMs) to smaller, more efficient models. However, traditional distillation approaches face challenges related to knowledge conflicts and high resource demands, particularly when leveraging multiple teacher models. In this paper, we introduce the concept of \textbf{Knowledge Purification}, which consolidates the rationales from multiple teacher LLMs into a single rationale, thereby mitigating conflicts and enhancing efficiency. To investigate the effectiveness of knowledge purification, we further propose five purification methods from various perspectives. Our experiments demonstrate that these methods not only improve the performance of the distilled model but also effectively alleviate knowledge conflicts. Moreover, router-based methods exhibit robust generalization capabilities, underscoring the potential of innovative purification techniques in optimizing multi-teacher distillation and facilitating the practical deployment of powerful yet lightweight models.
- Abstract(参考訳): 知識蒸留は、より強力な大言語モデル(LLM)からより小さく、より効率的なモデルへ知識を伝達するための重要な技術として登場した。
しかし、伝統的な蒸留法は、特に複数の教師モデルを活用する際に、知識の衝突や高い資源需要に関連する課題に直面している。
本稿では,複数の教師によるLLMの論理を一つの論理に集約し,矛盾を緩和し,効率を向上する「textbf{Knowledge Purification}」の概念を紹介する。
さらに,知識浄化の有効性を検討するために,様々な観点から5つの浄化方法を提案する。
実験により, これらの手法は蒸留モデルの性能を向上させるだけでなく, 知識衝突を効果的に軽減することを示した。
さらに、ルータベースの手法は堅牢な一般化能力を示し、マルチティーチンガー蒸留を最適化し、強力で軽量なモデルの実用的展開を促進する革新的な浄化技術の可能性を強調している。
関連論文リスト
- Efficient Knowledge Injection in LLMs via Self-Distillation [50.24554628642021]
本稿では, 急速蒸留を利用して, 自由形式文書から新たな事実知識を内包する手法を提案する。
急速蒸留は標準的な微調整よりも優れており,RAGを超越することさえ可能であることを示す。
論文 参考訳(メタデータ) (2024-12-19T15:44:01Z) - MLKD-BERT: Multi-level Knowledge Distillation for Pre-trained Language Models [4.404914701832396]
本研究では,教師-学生の枠組みにおける多段階知識を蒸留するための知識蒸留手法MLKD-BERTを提案する。
本手法は, BERTにおける最先端の知識蒸留法より優れている。
さらに、MLKD-BERTは、生徒の注意番号を柔軟に設定でき、性能低下を少なく抑えることができる。
論文 参考訳(メタデータ) (2024-07-03T03:03:30Z) - Efficient Multi-Model Fusion with Adversarial Complementary Representation Learning [26.393644289860084]
単一モデルシステムは、話者検証(SV)や画像分類といったタスクにおいて、しばしば欠陥に悩まされる。
本稿では、新たに訓練されたモデルが以前取得した知識を回避できる逆相補表現学習(ACoRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T07:47:55Z) - Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。
このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。
半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文 参考訳(メタデータ) (2024-02-07T22:50:47Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - On the Orthogonality of Knowledge Distillation with Other Techniques:
From an Ensemble Perspective [34.494730096460636]
知識蒸留は,効率的なニューラルネットワークを実用化するための強力な装置であることを示す。
また,知識蒸留を他の手法と効果的に統合する方法についても紹介する。
論文 参考訳(メタデータ) (2020-09-09T06:14:59Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。