論文の概要: All You Need in Knowledge Distillation Is a Tailored Coordinate System
- arxiv url: http://arxiv.org/abs/2412.09388v2
- Date: Wed, 12 Feb 2025 10:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:53.308978
- Title: All You Need in Knowledge Distillation Is a Tailored Coordinate System
- Title(参考訳): 知識蒸留で必要なものは、調整された調整システム
- Authors: Junjie Zhou, Ke Zhu, Jianxin Wu,
- Abstract要約: 知識蒸留(KD)は、大きな教師から小さな学生ネットワークに暗黒の知識を移すのに不可欠である。
既存のKD手法は、ターゲットタスクに特化して訓練された大きな教師に依存しており、非常に柔軟で非効率である。
我々はSSLを前提としたモデルが教師として効果的に機能し、その暗黒知識を座標系で捉えることができると論じる。
- 参考スコア(独自算出の注目度): 20.846344563444656
- License:
- Abstract: Knowledge Distillation (KD) is essential in transferring dark knowledge from a large teacher to a small student network, such that the student can be much more efficient than the teacher but with comparable accuracy. Existing KD methods, however, rely on a large teacher trained specifically for the target task, which is both very inflexible and inefficient. In this paper, we argue that a SSL-pretrained model can effectively act as the teacher and its dark knowledge can be captured by the coordinate system or linear subspace where the features lie in. We then need only one forward pass of the teacher, and then tailor the coordinate system (TCS) for the student network. Our TCS method is teacher-free and applies to diverse architectures, works well for KD and practical few-shot learning, and allows cross-architecture distillation with large capacity gap. Experiments show that TCS achieves significantly higher accuracy than state-of-the-art KD methods, while only requiring roughly half of their training time and GPU memory costs.
- Abstract(参考訳): 知識蒸留(KD)は、大きな教師から小さな学生ネットワークに暗黒の知識を移すことに不可欠であり、生徒は教師よりもはるかに効率が良いが、精度は同等である。
しかし、既存のKD手法は、ターゲットタスクに特化して訓練された大規模な教師に依存しており、非常に柔軟で非効率である。
本稿では,SSLを前提としたモデルが教師として効果的に機能し,そのダークナレッジを座標系や線形部分空間で捉えることができることを論じる。
次に、教師の前方通過を1回だけ必要とし、学生ネットワークの座標系(TCS)を調整する。
我々のTCS法は教師なしであり、多様なアーキテクチャに適用でき、KDや実践的な少数ショット学習に適しており、大きな容量ギャップを持つクロスアーキテクチャ蒸留が可能である。
実験の結果、TCSは最先端のKD手法よりもはるかに精度が高く、トレーニング時間とGPUメモリコストの約半分しか必要としないことがわかった。
関連論文リスト
- TIE-KD: Teacher-Independent and Explainable Knowledge Distillation for
Monocular Depth Estimation [1.03590082373586]
本稿では、複雑な教師モデルからコンパクトな学生ネットワークへの知識伝達を合理化するTIE-KD(Teacher-Independent Explainable Knowledge Distillation)フレームワークを紹介する。
TIE-KDの基盤はDPM(Depth Probability Map)であり、教師の出力を解釈する説明可能な特徴マップである。
KITTIデータセットの大規模な評価は、TIE-KDが従来の応答に基づくKD法より優れているだけでなく、多様な教師や学生のアーキテクチャで一貫した有効性を示すことを示している。
論文 参考訳(メタデータ) (2024-02-22T07:17:30Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - Knowledge Condensation Distillation [38.446333274732126]
既存の方法は、知識のヒントを発掘し、すべての知識を学生に伝達することに焦点を当てている。
本稿では,知識凝縮蒸留(KCD)を提案する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能なオーバーヘッドがない。
論文 参考訳(メタデータ) (2022-07-12T09:17:34Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Learning from a Lightweight Teacher for Efficient Knowledge Distillation [14.865673786025525]
本稿では,軽量な知識蒸留のためのLW-KDを提案する。
まず、合成された単純なデータセット上に軽量な教師ネットワークをトレーニングし、ターゲットデータセットのそれと同等の調整可能なクラス番号を付ける。
そして、教師はソフトターゲットを生成し、強化されたKD損失は、教師の出力と区別不能にするためのKD損失と敵対的損失の組合せである、学生の学習を誘導する。
論文 参考訳(メタデータ) (2020-05-19T01:54:15Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。