論文の概要: Triplet Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2305.15975v1
- Date: Thu, 25 May 2023 12:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 15:29:34.675642
- Title: Triplet Knowledge Distillation
- Title(参考訳): トリプルト知識蒸留
- Authors: Xijun Wang, Dongyang Liu, Meina Kan, Chunrui Han, Zhongqin Wu,
Shiguang Shan
- Abstract要約: 知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
- 参考スコア(独自算出の注目度): 73.39109022280878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Knowledge Distillation, the teacher is generally much larger than the
student, making the solution of the teacher likely to be difficult for the
student to learn. To ease the mimicking difficulty, we introduce a triplet
knowledge distillation mechanism named TriKD. Besides teacher and student,
TriKD employs a third role called anchor model. Before distillation begins, the
pre-trained anchor model delimits a subspace within the full solution space of
the target problem. Solutions within the subspace are expected to be easy
targets that the student could mimic well. Distillation then begins in an
online manner, and the teacher is only allowed to express solutions within the
aforementioned subspace. Surprisingly, benefiting from accurate but
easy-to-mimic hints, the student can finally perform well. After the student is
well trained, it can be used as the new anchor for new students, forming a
curriculum learning strategy. Our experiments on image classification and face
recognition with various models clearly demonstrate the effectiveness of our
method. Furthermore, the proposed TriKD is also effective in dealing with the
overfitting issue. Moreover, our theoretical analysis supports the rationality
of our triplet distillation.
- Abstract(参考訳): 知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
教師と生徒の他に、TriKDはアンカーモデルと呼ばれる第3の役割を担っている。
蒸留が始まる前に、事前訓練されたアンカーモデルは、対象問題の完全解空間内の部分空間をデリミットする。
サブスペース内のソリューションは、学生がうまく真似できる簡単なターゲットになることが期待されます。
その後、蒸留はオンラインで開始され、教師は上記の部分空間内でのみ解を表現できる。
意外なことに、学生は正確だが簡単に模倣できるヒントの恩恵を受けることができる。
学生が十分に訓練された後、新しい学生のための新しいアンカーとして利用でき、カリキュラム学習戦略を形成する。
様々なモデルを用いた画像分類と顔認識実験により,本手法の有効性が明らかとなった。
さらに,提案したTriKDはオーバーフィッティング問題にも有効である。
さらに, 理論解析は三重項蒸留の合理性を支持する。
関連論文リスト
- Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Pro-KD: Progressive Distillation by Following the Footsteps of the
Teacher [5.010360359434596]
プロKD手法は、教師のトレーニングフットプリントに従うことで、生徒のよりスムーズなトレーニングパスを定義する。
本手法は,キャパシティギャップ問題とチェックポイント探索問題の緩和に有効であることを示す。
論文 参考訳(メタデータ) (2021-10-16T09:49:43Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - ALP-KD: Attention-Based Layer Projection for Knowledge Distillation [30.896957367331137]
2つのニューラルネットワーク、すなわち教師と学生は、トレーニング中に一緒に結合されます。
教師ネットワークは信頼できる予測者であり、生徒はその予測を模倣しようとします。
このような状況下では、蒸留は最終予測でのみ行われるが、生徒は教師が内部成分を監督する利益も得る。
論文 参考訳(メタデータ) (2020-12-27T22:30:13Z) - Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文 参考訳(メタデータ) (2020-10-15T03:03:36Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。