論文の概要: Simple Unsupervised Knowledge Distillation With Space Similarity
- arxiv url: http://arxiv.org/abs/2409.13939v1
- Date: Fri, 20 Sep 2024 22:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:28:44.067704
- Title: Simple Unsupervised Knowledge Distillation With Space Similarity
- Title(参考訳): 空間的類似性を考慮した簡易無教師型知識蒸留
- Authors: Aditya Singh, Haohan Wang,
- Abstract要約: 自己教師付き学習(SSL)は、より小さなアーキテクチャに容易に拡張できない。
正規化により失われた情報を捉えるための単純な目的を提案する。
提案する損失成分である「textbfspace similarity」は,生徒の特徴空間の各次元を,教師の対応する次元に類似させる動機付けを行う。
- 参考スコア(独自算出の注目度): 15.341380611979524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As per recent studies, Self-supervised learning (SSL) does not readily extend to smaller architectures. One direction to mitigate this shortcoming while simultaneously training a smaller network without labels is to adopt unsupervised knowledge distillation (UKD). Existing UKD approaches handcraft preservation worthy inter/intra sample relationships between the teacher and its student. However, this may overlook/ignore other key relationships present in the mapping of a teacher. In this paper, instead of heuristically constructing preservation worthy relationships between samples, we directly motivate the student to model the teacher's embedding manifold. If the mapped manifold is similar, all inter/intra sample relationships are indirectly conserved. We first demonstrate that prior methods cannot preserve teacher's latent manifold due to their sole reliance on $L_2$ normalised embedding features. Subsequently, we propose a simple objective to capture the lost information due to normalisation. Our proposed loss component, termed \textbf{space similarity}, motivates each dimension of a student's feature space to be similar to the corresponding dimension of its teacher. We perform extensive experiments demonstrating strong performance of our proposed approach on various benchmarks.
- Abstract(参考訳): 最近の研究によると、自己教師付き学習(SSL)はより小さなアーキテクチャに容易に拡張されない。
ラベルなしで小さなネットワークをトレーニングしながら、この欠点を緩和する一つの方法は、教師なし知識蒸留(UKD)を採用することである。
既存のUKDは、教師と学生の相互/イントラの関係に相応しい手工芸品保存にアプローチする。
しかし、これは教師のマッピングに存在する他の重要な関係を見落とし/無視する可能性がある。
本稿では,サンプル間の保存にふさわしい関係をヒューリスティックに構築する代わりに,教師の埋め込み多様体をモデル化する動機付けを直接行う。
写像された多様体が類似しているなら、すべてのインター/イントラのサンプル関係は間接的に保存される。
まず, 従来の手法では, 正規化埋め込み機能にのみ依存するため, 教師の潜伏多様体を保存できないことを示す。
続いて,正規化により失われた情報を取得するための簡易な目的を提案する。
提案する損失成分である「textbf{space similarity}」は,生徒の特徴空間の各次元を,教師の対応する次元に類似するように動機付ける。
様々なベンチマークで提案手法の強い性能を示す広範な実験を行った。
関連論文リスト
- Progressive distillation induces an implicit curriculum [44.528775476168654]
より良い教師は必ずしも良い生徒を産むとは限らない。
この原理を実証的に検証した1つの変種はプログレッシブ蒸留であり、そこで学生は教師の連続した中間チェックポイントから学習する。
スパースパリティをサンドボックスとして使用することにより、暗黙のカリキュラムをプログレッシブ蒸留によって学生の学習を加速させる1つのメカニズムとして認識する。
論文 参考訳(メタデータ) (2024-10-07T19:49:24Z) - Relational Representation Distillation [6.24302896438145]
本稿では,教師モデルと学生モデルの関係を探求し,強化するためにRepresentation Distillation (RRD)を導入する。
自己監督学習の原則に触発されて、正確な複製と類似性に焦点を当てた、リラックスした対照的な損失を使用する。
我々は,CIFAR-100とImageNet ILSVRC-2012において優れた性能を示し,KDと組み合わせた場合,教師ネットワークよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-16T14:56:13Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Knowledge Distillation from A Stronger Teacher [44.11781464210916]
本稿では,より強い教師を駆使したDIST法を提案する。
経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。
提案手法は単純かつ実用的であり,様々なアーキテクチャに適応できることを示す。
論文 参考訳(メタデータ) (2022-05-21T08:30:58Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - Bag of Instances Aggregation Boosts Self-supervised Learning [122.61914701794296]
教師なし学習のための簡易かつ効果的な蒸留戦略を提案する。
BINGOと呼ばれる本手法は,教師が学習した関係を学生に伝達することを目的としている。
BINGOは、小規模モデルにおける最先端の新たなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-07-04T17:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。