論文の概要: Locally Linear Region Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2010.04812v2
- Date: Mon, 19 Oct 2020 08:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:46:49.170076
- Title: Locally Linear Region Knowledge Distillation
- Title(参考訳): 局所線形領域知識蒸留
- Authors: Xiang Deng and Zhongfei (Mark) Zhang
- Abstract要約: 知識蒸留(KD)は、あるニューラルネットワーク(教師)から別の(学生)への知識伝達に有効な技術である
スパーストレーニングデータポイントでの知識の伝達は,教師機能の局所的な形状を十分に把握することができない,と我々は主張する。
本稿では, 局所的, 線形的領域の知識を教師から学生に伝達する局所的地域知識蒸留(rm L2$RKD)を提案する。
- 参考スコア(独自算出の注目度): 5.6592403195043826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is an effective technique to transfer knowledge
from one neural network (teacher) to another (student), thus improving the
performance of the student. To make the student better mimic the behavior of
the teacher, the existing work focuses on designing different criteria to align
their logits or representations. Different from these efforts, we address
knowledge distillation from a novel data perspective. We argue that
transferring knowledge at sparse training data points cannot enable the student
to well capture the local shape of the teacher function. To address this issue,
we propose locally linear region knowledge distillation ($\rm L^2$RKD) which
transfers the knowledge in local, linear regions from a teacher to a student.
This is achieved by enforcing the student to mimic the outputs of the teacher
function in local, linear regions. To the end, the student is able to better
capture the local shape of the teacher function and thus achieves a better
performance. Despite its simplicity, extensive experiments demonstrate that
$\rm L^2$RKD is superior to the original KD in many aspects as it outperforms
KD and the other state-of-the-art approaches by a large margin, shows
robustness and superiority under few-shot settings, and is more compatible with
the existing distillation approaches to further improve their performances
significantly.
- Abstract(参考訳): 知識蒸留(KD)は、あるニューラルネットワーク(教師)から別の(学生)に知識を伝達する効果的な手法であり、学生のパフォーマンスを向上させる。
生徒が教師の行動をより良く模倣するために、既存の研究は、ロジットや表現を調整するために異なる基準を設計することに焦点を当てている。
これらの取り組みと異なり、新しいデータの観点から知識蒸留を扱う。
スパーストレーニングデータポイントでの知識の伝達は,教師機能の局所的な形状を十分に把握することができない,と我々は主張する。
この問題に対処するため,我々は,ローカルリニア領域における知識を教師から生徒に伝達するローカルリニア領域知識蒸留(\rm l^2$rkd)を提案する。
これは、局所的、線形的領域における教師関数の出力を模倣するように学生に強制することで達成される。
最終的に、生徒は教師機能の局所的な形状をよりよく捉え、より良いパフォーマンスを得ることができる。
その単純さにもかかわらず、広範にわたる実験により、KDと他の最先端のアプローチを大きなマージンで上回り、数ショットの条件下で頑健さと優越性を示し、既存の蒸留手法との互換性が向上し、性能が大幅に向上するなど、KDよりも多くの面において$\rm L^2$RKDの方が優れていることが示されている。
関連論文リスト
- Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - On effects of Knowledge Distillation on Transfer Learning [0.0]
本稿では,知識蒸留と伝達学習を組み合わせたTL+KDという機械学習アーキテクチャを提案する。
我々は,教師ネットワークの指導と知識を微調整中に利用することにより,学生ネットワークを改良し,精度などの検証性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-10-18T08:11:52Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Distilling Knowledge by Mimicking Features [32.79431807764681]
我々は,教師の特徴を直感的な層に模倣させる方が,より有利であると主張している。
生徒は教師機能から直接より効果的な情報を学べるだけでなく、ソフトマックス層を使わずに訓練された教師にも機能模倣を適用することができる。
論文 参考訳(メタデータ) (2020-11-03T02:15:14Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z) - Inter-Region Affinity Distillation for Road Marking Segmentation [81.3619453527367]
本研究では,大規模な教員ネットワークからより小さな学生ネットワークへ知識を蒸留する問題について検討する。
我々の手法はInter-Region Affinity KD(IntRA-KD)として知られている。
論文 参考訳(メタデータ) (2020-04-11T04:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。