論文の概要: Faculty Distillation with Optimal Transport
- arxiv url: http://arxiv.org/abs/2204.11526v1
- Date: Mon, 25 Apr 2022 09:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 12:56:22.053900
- Title: Faculty Distillation with Optimal Transport
- Title(参考訳): 最適輸送による学部蒸留
- Authors: Su Lu, Han-Jia Ye, De-Chuan Zhan
- Abstract要約: 本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
- 参考スコア(独自算出の注目度): 53.69235109551099
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge distillation (KD) has shown its effectiveness in improving a
student classifier given a suitable teacher. The outpouring of diverse and
plentiful pre-trained models may provide abundant teacher resources for KD.
However, these models are often trained on different tasks from the student,
which requires the student to precisely select the most contributive teacher
and enable KD across different label spaces. These restrictions disclose the
insufficiency of standard KD and motivate us to study a new paradigm called
faculty distillation. Given a group of teachers (faculty), a student needs to
select the most relevant teacher and perform generalized knowledge reuse. To
this end, we propose to link teacher's task and student's task by optimal
transport. Based on the semantic relationship between their label spaces, we
can bridge the support gap between output distributions by minimizing Sinkhorn
distances. The transportation cost also acts as a measurement of teachers'
adaptability so that we can rank the teachers efficiently according to their
relatedness. Experiments under various settings demonstrate the succinctness
and versatility of our method.
- Abstract(参考訳): 知識蒸留(KD)は、適切な教師が与えられた学生分類器を改善する効果を示した。
多様な多種多様な事前訓練型モデルの展開は、KDに豊富な教師資源を提供する可能性がある。
しかしながら、これらのモデルは学生と異なるタスクで訓練されることが多く、生徒は最も貢献的な教師を正確に選択し、異なるラベル空間でKDを有効にする必要がある。
これらの制限は標準kdの不足を開示し、我々は学部蒸留と呼ばれる新しいパラダイムを研究する動機付けとなる。
教師のグループ(学部)が与えられると、生徒は最も関係のある教師を選び、一般的な知識の再利用を行う必要がある。
そこで我々は,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づいて、シンクホーン距離を最小化することにより、出力分布間の支持ギャップを埋めることができる。
輸送コストは教師の適応性の測定にも役立ち、教師の関連度に応じて教師のランク付けを効率的に行うことができる。
各種条件下での実験では,提案手法の簡潔さと汎用性を示す。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Learning from a Lightweight Teacher for Efficient Knowledge Distillation [14.865673786025525]
本稿では,軽量な知識蒸留のためのLW-KDを提案する。
まず、合成された単純なデータセット上に軽量な教師ネットワークをトレーニングし、ターゲットデータセットのそれと同等の調整可能なクラス番号を付ける。
そして、教師はソフトターゲットを生成し、強化されたKD損失は、教師の出力と区別不能にするためのKD損失と敵対的損失の組合せである、学生の学習を誘導する。
論文 参考訳(メタデータ) (2020-05-19T01:54:15Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。