論文の概要: Preserving Angles Improves Feature Distillation of Foundation Models
- arxiv url: http://arxiv.org/abs/2411.15239v2
- Date: Sat, 08 Mar 2025 00:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.19165
- Title: Preserving Angles Improves Feature Distillation of Foundation Models
- Title(参考訳): ファンデーションモデルの特徴蒸留を改善するアングルの保存
- Authors: Evelyn J. Mannix, Liam Hodgkinson, Howard Bondell,
- Abstract要約: 圧縮空間ネットワークと学生画像モデルとの類似性を保存する。
様々なCossNetデータセットが、検出ベンチマークでより堅牢な精度で精度良く生成されることが示されている。
これにより、一般的な検出ベンチマークでのトレーニングの競合パスが提供される。
- 参考スコア(独自算出の注目度): 8.572967695281054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation approaches compress models by training a student network using the classification outputs of a high quality teacher model, but can fail to effectively transfer the properties of computer vision foundation models from the teacher to the student. While it has been recently shown that feature distillation$\unicode{x2013}$where a teacher model's output features are replicated instead$\unicode{x2013}$can reproduce performance for foundation models across numerous downstream tasks, they fall short in matching critical properties such as robustness and out-of-distribution (OOD) detection performance. This paper overcomes this shortcoming by introducing Cosine-similarity Preserving Compression (CosPress), a feature distillation technique that learns a mapping to compress the latent space of the teacher model into the smaller latent space of the student, by preserving the cosine similarities between image embeddings. This enables direct optimisation of the student network and produces a more faithful reproduction of the teacher's properties. It is shown that distillation with CosPress on a variety of datasets, including ImageNet, produces more accurate models with greater performance on generalisability, robustness and OOD detection benchmarks, and that this technique provides a competitive pathway for training highly performant lightweight models on small datasets. Code is available at https://github.com/emannix/cospress.
- Abstract(参考訳): 知識蒸留は、高品質の教師モデルの分類出力を用いて、学生ネットワークを訓練することで、圧縮モデルにアプローチするが、コンピュータビジョン基礎モデルの特性を教師から生徒に効果的に伝達することができない。
機能蒸留$\unicode{x2013}$は、教師モデルの出力機能を代わりに複製する$\unicode{x2013}$canは、多くの下流タスクにわたる基礎モデルのパフォーマンスを再現するが、ロバストネスやアウト・オブ・ディストリビューション(OOD)検出パフォーマンスなどの重要な特性にマッチしない。
本稿では,イメージ埋め込みのコサイン類似性を保ち,教師モデルの潜伏空間をより小さい潜伏空間に圧縮するマッピングを学習する特徴蒸留技術であるコサイン類似保存圧縮(CosPress)を導入することで,この欠点を克服する。
これにより、学生ネットワークの直接最適化が可能になり、教師の資産をより忠実に再現することができる。
ImageNetを含むさまざまなデータセット上のCosPressによる蒸留は、汎用性、ロバスト性、OOD検出ベンチマークでより正確なモデルを生成することが示されており、この技術は、小さなデータセット上で高性能軽量モデルをトレーニングするための競合パスを提供する。
コードはhttps://github.com/emannix/cospress.comで入手できる。
関連論文リスト
- Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation [3.301728339780329]
本稿では,資源量の多い教師モデルを必要としない知識蒸留効率を向上させる革新的な手法を提案する。
そこで本研究では,ソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。
CIFAR-100、Tiny Imagenet、Fashion MNISTなど、さまざまなデータセットに関する実験は、我々のアプローチの優れたリソース効率を実証している。
論文 参考訳(メタデータ) (2024-04-15T15:54:30Z) - Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。
このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。
半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文 参考訳(メタデータ) (2024-02-07T22:50:47Z) - Distilling Out-of-Distribution Robustness from Vision-Language
Foundation Models [40.885755686727855]
本稿では,視覚モデルのロバスト性を改善するための,概念的にシンプルで軽量なフレームワークを提案する。
プレトレーニング基礎モデルから蒸留する際, 分布外ロバスト性には強い効果が認められた。
データ拡張設定による知識蒸留におけるロバストな教師の活用のための理論的枠組みを提供する。
論文 参考訳(メタデータ) (2023-11-02T17:55:13Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Efficient Knowledge Distillation from Model Checkpoints [36.329429655242535]
同じ訓練軌道から複数の中間モデルの弱いスナップショットアンサンブルは、独立に訓練された完全収束モデルの強いアンサンブルより優れていることを示す。
本稿では,タスク関連相互情報の最大化に基づく最適中間教師選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-12T17:55:30Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - A Studious Approach to Semi-Supervised Learning [0.0]
本論文は半教師付き環境での蒸留のアブレーション研究である。
モデルのパラメータ数を削減しますが、パフォーマンスを改善しながらこれを達成することができます。
これにより、半教師付きコンピュータビジョンタスクの性能を高める効果的なソリューションとしての蒸留の可能性がもたらされる。
論文 参考訳(メタデータ) (2021-09-18T12:48:47Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - End-to-End Facial Deep Learning Feature Compression with Teacher-Student
Enhancement [57.18801093608717]
本稿では,ディープニューラルネットワークの表現と学習能力を活用することで,エンドツーエンドの特徴圧縮手法を提案する。
特に、抽出した特徴量を、レート歪みコストを最適化することにより、エンドツーエンドでコンパクトに符号化する。
提案モデルの有効性を顔の特徴で検証し, 圧縮性能を高いレート精度で評価した。
論文 参考訳(メタデータ) (2020-02-10T10:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。