論文の概要: Preserving Angles Improves Feature Distillation of Foundation Models
- arxiv url: http://arxiv.org/abs/2411.15239v2
- Date: Sat, 08 Mar 2025 00:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:41:02.791970
- Title: Preserving Angles Improves Feature Distillation of Foundation Models
- Title(参考訳): ファンデーションモデルの特徴蒸留を改善するアングルの保存
- Authors: Evelyn J. Mannix, Liam Hodgkinson, Howard Bondell,
- Abstract要約: 圧縮空間ネットワークと学生画像モデルとの類似性を保存する。
様々なCossNetデータセットが、検出ベンチマークでより堅牢な精度で精度良く生成されることが示されている。
これにより、一般的な検出ベンチマークでのトレーニングの競合パスが提供される。
- 参考スコア(独自算出の注目度): 8.572967695281054
- License:
- Abstract: Knowledge distillation approaches compress models by training a student network using the classification outputs of a high quality teacher model, but can fail to effectively transfer the properties of computer vision foundation models from the teacher to the student. While it has been recently shown that feature distillation$\unicode{x2013}$where a teacher model's output features are replicated instead$\unicode{x2013}$can reproduce performance for foundation models across numerous downstream tasks, they fall short in matching critical properties such as robustness and out-of-distribution (OOD) detection performance. This paper overcomes this shortcoming by introducing Cosine-similarity Preserving Compression (CosPress), a feature distillation technique that learns a mapping to compress the latent space of the teacher model into the smaller latent space of the student, by preserving the cosine similarities between image embeddings. This enables direct optimisation of the student network and produces a more faithful reproduction of the teacher's properties. It is shown that distillation with CosPress on a variety of datasets, including ImageNet, produces more accurate models with greater performance on generalisability, robustness and OOD detection benchmarks, and that this technique provides a competitive pathway for training highly performant lightweight models on small datasets. Code is available at https://github.com/emannix/cospress.
- Abstract(参考訳): 知識蒸留は、高品質の教師モデルの分類出力を用いて、学生ネットワークを訓練することで、圧縮モデルにアプローチするが、コンピュータビジョン基礎モデルの特性を教師から生徒に効果的に伝達することができない。
機能蒸留$\unicode{x2013}$は、教師モデルの出力機能を代わりに複製する$\unicode{x2013}$canは、多くの下流タスクにわたる基礎モデルのパフォーマンスを再現するが、ロバストネスやアウト・オブ・ディストリビューション(OOD)検出パフォーマンスなどの重要な特性にマッチしない。
本稿では,イメージ埋め込みのコサイン類似性を保ち,教師モデルの潜伏空間をより小さい潜伏空間に圧縮するマッピングを学習する特徴蒸留技術であるコサイン類似保存圧縮(CosPress)を導入することで,この欠点を克服する。
これにより、学生ネットワークの直接最適化が可能になり、教師の資産をより忠実に再現することができる。
ImageNetを含むさまざまなデータセット上のCosPressによる蒸留は、汎用性、ロバスト性、OOD検出ベンチマークでより正確なモデルを生成することが示されており、この技術は、小さなデータセット上で高性能軽量モデルをトレーニングするための競合パスを提供する。
コードはhttps://github.com/emannix/cospress.comで入手できる。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation [3.301728339780329]
本稿では,資源量の多い教師モデルを必要としない知識蒸留効率を向上させる革新的な手法を提案する。
そこで本研究では,ソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。
CIFAR-100、Tiny Imagenet、Fashion MNISTなど、さまざまなデータセットに関する実験は、我々のアプローチの優れたリソース効率を実証している。
論文 参考訳(メタデータ) (2024-04-15T15:54:30Z) - Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。
このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。
半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文 参考訳(メタデータ) (2024-02-07T22:50:47Z) - Distilling Out-of-Distribution Robustness from Vision-Language
Foundation Models [40.885755686727855]
本稿では,視覚モデルのロバスト性を改善するための,概念的にシンプルで軽量なフレームワークを提案する。
プレトレーニング基礎モデルから蒸留する際, 分布外ロバスト性には強い効果が認められた。
データ拡張設定による知識蒸留におけるロバストな教師の活用のための理論的枠組みを提供する。
論文 参考訳(メタデータ) (2023-11-02T17:55:13Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Efficient Knowledge Distillation from Model Checkpoints [36.329429655242535]
同じ訓練軌道から複数の中間モデルの弱いスナップショットアンサンブルは、独立に訓練された完全収束モデルの強いアンサンブルより優れていることを示す。
本稿では,タスク関連相互情報の最大化に基づく最適中間教師選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-12T17:55:30Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。