論文の概要: UNDO: Understanding Distillation as Optimization
- arxiv url: http://arxiv.org/abs/2504.02521v1
- Date: Thu, 03 Apr 2025 12:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:02.779795
- Title: UNDO: Understanding Distillation as Optimization
- Title(参考訳): UNDO:蒸留を最適化として理解する
- Authors: Kushal Jain, Piyushi Goyal, Kumar Shridhar,
- Abstract要約: UNDO: Understanding Distillation as Optimization frameworkを紹介します。
各イテレーションは、生徒の学習不足を直接対象とし、教師に調整された強化された合理性を提供する動機を与える。
様々な数学的・常識的推論タスクに関する実証的な評価は、我々の反復蒸留法UNDOが標準の1段階蒸留法を大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 9.100811514331498
- License:
- Abstract: Knowledge distillation has emerged as an effective strategy for compressing large language models' (LLMs) knowledge into smaller, more efficient student models. However, standard one-shot distillation methods often produce suboptimal results due to a mismatch between teacher-generated rationales and the student's specific learning requirements. In this paper, we introduce the UNDO: UNderstanding Distillation as Optimization framework, designed to bridge this gap by iteratively identifying the student's errors and prompting the teacher to refine its explanations accordingly. Each iteration directly targets the student's learning deficiencies, motivating the teacher to provide tailored and enhanced rationales that specifically address these weaknesses. Empirical evaluations on various challenging mathematical and commonsense reasoning tasks demonstrate that our iterative distillation method, UNDO, significantly outperforms standard one-step distillation methods, achieving performance gains of up to 20%. Additionally, we show that teacher-generated data refined through our iterative process remains effective even when applied to different student models, underscoring the broad applicability of our approach. Our work fundamentally reframes knowledge distillation as an iterative teacher-student interaction, effectively leveraging dynamic refinement by the teacher for better knowledge distillation.
- Abstract(参考訳): 知識蒸留は、大きな言語モデル(LLM)の知識をより小さく、より効率的な学生モデルに圧縮するための効果的な戦略として登場した。
しかし, 標準的な一発蒸留法は, 教師生成的合理性と生徒の特定の学習要件とのミスマッチにより, 最適以下の結果をもたらすことが多い。
本稿では,学生の誤りを反復的に識別し,教師に説明の洗練を促すことによって,このギャップを埋めるべく設計されたUNDO: Understanding Distillation as Optimizationフレームワークを紹介する。
各イテレーションは、生徒の学習不足を直接対象とし、教師にこれらの弱点に特に対処する調整された、強化された合理性を提供するよう動機付ける。
種々の数学的・常識的推論タスクに関する実証的な評価は、我々の反復蒸留法UNDOが標準1段階蒸留法を著しく上回り、最大20%の性能向上を達成していることを示している。
さらに, 学生モデルに適用しても, 反復的プロセスによって改良された教師生成データが依然として有効であることを示し, アプローチの広範な適用性を強調した。
我々の研究は、知識蒸留を反復的な教師と学生の相互作用として根本的に再構成し、教師による動的精錬を効果的に活用し、より良い知識蒸留を行う。
関連論文リスト
- The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - Student-friendly Knowledge Distillation [1.5469452301122173]
そこで我々は,教師による知識表現の簡易化を目的として,学生に優しい知識蒸留(SKD)を提案する。
SKDは、軟化処理と学習簡略化器とを含む。
CIFAR-100とImageNetのデータセットを用いた実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2023-05-18T11:44:30Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。