論文の概要: Less or More From Teacher: Exploiting Trilateral Geometry For Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2312.15112v3
- Date: Mon, 19 Feb 2024 00:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:56:40.652680
- Title: Less or More From Teacher: Exploiting Trilateral Geometry For Knowledge
Distillation
- Title(参考訳): 教師の多かれ少なかれ--知識蒸留における三方幾何学の活用
- Authors: Chengming Hu, Haolun Wu, Xuan Li, Chen Ma, Xi Chen, Jun Yan, Boyu
Wang, Xue Liu
- Abstract要約: 本稿では,サンプル単位の知識融合比を学習するための新しい適応手法を提案する。
我々は,教師と生徒の正しさを両立させ,生徒が各サンプルに対していかにその教師を模倣するかを考察する。
単純なニューラルネットワークは、サンプル内およびサンプル間関係から適応的、サンプル単位の知識融合比への暗黙のマッピングを学習する。
- 参考スコア(独自算出の注目度): 21.913044821863636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation aims to train a compact student network using soft
supervision from a larger teacher network and hard supervision from ground
truths. However, determining an optimal knowledge fusion ratio that balances
these supervisory signals remains challenging. Prior methods generally resort
to a constant or heuristic-based fusion ratio, which often falls short of a
proper balance. In this study, we introduce a novel adaptive method for
learning a sample-wise knowledge fusion ratio, exploiting both the correctness
of teacher and student, as well as how well the student mimics the teacher on
each sample. Our method naturally leads to the intra-sample trilateral
geometric relations among the student prediction ($S$), teacher prediction
($T$), and ground truth ($G$). To counterbalance the impact of outliers, we
further extend to the inter-sample relations, incorporating the teacher's
global average prediction $\bar{T}$ for samples within the same class. A simple
neural network then learns the implicit mapping from the intra- and
inter-sample relations to an adaptive, sample-wise knowledge fusion ratio in a
bilevel-optimization manner. Our approach provides a simple, practical, and
adaptable solution for knowledge distillation that can be employed across
various architectures and model sizes. Extensive experiments demonstrate
consistent improvements over other loss re-weighting methods on image
classification, attack detection, and click-through rate prediction.
- Abstract(参考訳): 知識蒸留は、より大きな教師ネットワークからのソフトな監督と地上の真実からのハードな監督を用いて、コンパクトな学生ネットワークを訓練することを目的としている。
しかし、これらの監視信号のバランスをとる最適な知識融合比を決定することは依然として困難である。
従来の方法では、通常、一定のあるいはヒューリスティックな融合比を頼りにしており、しばしば適切なバランスに欠ける。
本研究では,教師と生徒の正当性を生かし,各生徒が各サンプルに対していかにその教師を模倣しているかを生かし,サンプルの知識融合比を学習するための適応的手法を提案する。
本手法は,学生の予測値(S$),教師の予測値(T$),基礎的真理値(G$)の3値内幾何学的関係を自然に導く。
外れ値の影響を均衡させるため、教師のグローバル平均予測$\bar{t}$を同じクラス内のサンプルに組み込むことで、サンプル間関係をさらに拡張する。
単純なニューラルネットワークは、サンプル内およびサンプル間関係から、適応的でサンプル単位の知識融合比への暗黙のマッピングをバイレベル最適化方式で学習する。
我々のアプローチは、様々なアーキテクチャやモデルサイズにまたがって適用可能な、シンプルで実用的で適応可能な知識蒸留ソリューションを提供する。
広範な実験により、画像分類、攻撃検出、クリックスルー率予測において、他の損失再重み付け方法よりも一貫した改善が示されている。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。
本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Mitigating Accuracy-Robustness Trade-off via Balanced Multi-Teacher Adversarial Distillation [12.39860047886679]
敵対的トレーニングは、敵対的攻撃に対するディープニューラルネットワークの堅牢性を改善するための実践的なアプローチである。
本稿では,B-MTARD(Ba balanced Multi-Teacher Adversarial Robustness Distillation)を導入する。
B-MTARDは、様々な敵攻撃に対して最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-06-28T12:47:01Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - MDFlow: Unsupervised Optical Flow Learning by Reliable Mutual Knowledge
Distillation [12.249680550252327]
現在のアプローチでは、継続的な自己スーパービジョンの強化正則化項が課せられている。
本稿では,教師と学生のネットワーク間で信頼ある知識を相互に伝達する新たな相互蒸留フレームワークを提案する。
我々のアプローチはMDFlowと呼ばれ、挑戦的なベンチマーク上で最先端のリアルタイム精度と一般化能力を実現する。
論文 参考訳(メタデータ) (2022-11-11T05:56:46Z) - Knowledge Distillation from A Stronger Teacher [44.11781464210916]
本稿では,より強い教師を駆使したDIST法を提案する。
経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。
提案手法は単純かつ実用的であり,様々なアーキテクチャに適応できることを示す。
論文 参考訳(メタデータ) (2022-05-21T08:30:58Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。