論文の概要: Knowledge Distillation with Training Wheels
- arxiv url: http://arxiv.org/abs/2502.17717v1
- Date: Mon, 24 Feb 2025 23:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:09.410018
- Title: Knowledge Distillation with Training Wheels
- Title(参考訳): トレーニングホイールによる知識蒸留
- Authors: Guanlin Liu, Anand Ramachandran, Tanmay Gangwani, Yan Fu, Abhinav Sethy,
- Abstract要約: 授業中に教師から学習する知識蒸留のための,より一般的な枠組みを定式化する。
制約付き強化学習を用いてこれを、テストタイム参照として教師モデルを使用するフレームワークに拡張する。
- 参考スコア(独自算出の注目度): 15.153745235245287
- License:
- Abstract: Knowledge distillation is used, in generative language modeling, to train a smaller student model using the help of a larger teacher model, resulting in improved capabilities for the student model. In this paper, we formulate a more general framework for knowledge distillation where the student learns from the teacher during training, and also learns to ask for the teacher's help at test-time following rules specifying test-time restrictions. Towards this, we first formulate knowledge distillation as an entropy-regularized value optimization problem. Adopting Path Consistency Learning to solve this, leads to a new knowledge distillation algorithm using on-policy and off-policy demonstrations. We extend this using constrained reinforcement learning to a framework that incorporates the use of the teacher model as a test-time reference, within constraints. In this situation, akin to a human learner, the model needs to learn not only the learning material, but also the relative difficulty of different sections to prioritize for seeking teacher help. We examine the efficacy of our method through experiments in translation and summarization tasks, observing trends in accuracy and teacher use, noting that our approach unlocks operating points not available to the popular Speculative Decoding approach.
- Abstract(参考訳): 知識蒸留は、生成言語モデリングにおいて、より大きな教師モデルの助けを借りてより小さな学生モデルを訓練するために用いられる。
本稿では,学生が授業中に教師から学ぶ知識蒸留のためのより一般的な枠組みを定式化し,テスト時間制限を規定するルールに従って,テスト時間における教師の助けを求めることを学習する。
そこで我々はまず,エントロピー規則化値最適化問題として知識蒸留を定式化する。
この問題を解決するためにパス一貫性学習を採用することで、オン・ポリティクスとオフ・ポリティクスを用いた新しい知識蒸留アルゴリズムが実現される。
制約付き強化学習を用いてこれを拡張し、制約内でテスト時間参照として教師モデルを使用するフレームワークに拡張する。
このような状況下では、人間の学習者と同様、モデルは学習材料だけでなく、教師の助けを求めるために、異なるセクションの相対的困難さも学習する必要がある。
提案手法の有効性を,翻訳および要約タスクの実験を通じて検証し,精度と教師利用の傾向を観察し,提案手法が一般的な投機的復号法では利用できない操作点を解き放つことを指摘した。
関連論文リスト
- When Babies Teach Babies: Can student knowledge sharing outperform Teacher-Guided Distillation on small datasets? [0.0]
我々は,データ効率のよい言語モデル事前学習の限界を推し進めることを目的として,BabyLMチャレンジに提案する。
重み付き相互学習を二段階最適化問題として定式化することにより、生徒の平等な待遇の限界に対処する。
評価の結果、教師なしの手法は教師が指導する手法と一致したり、超えたりできることがわかった。
論文 参考訳(メタデータ) (2024-11-25T15:25:31Z) - Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。
このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。
半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文 参考訳(メタデータ) (2024-02-07T22:50:47Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - RLTutor: Reinforcement Learning Based Adaptive Tutoring System by
Modeling Virtual Student with Fewer Interactions [10.34673089426247]
本稿では,学生の仮想モデルを構築し,指導戦略を最適化する枠組みを提案する。
この結果は,eラーニングシステムにおける理論的指導最適化と実践的応用のバッファとして機能する。
論文 参考訳(メタデータ) (2021-07-31T15:42:03Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Introspective Learning by Distilling Knowledge from Online
Self-explanation [36.91213895208838]
本稿では,オンライン自己説明から知識を抽出し,イントロスペクティブ学習の実装を提案する。
イントロスペクティブ学習法で訓練されたモデルは、標準学習法で訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-09-19T02:05:32Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。