論文の概要: $V_kD:$ Improving Knowledge Distillation using Orthogonal Projections
- arxiv url: http://arxiv.org/abs/2403.06213v1
- Date: Sun, 10 Mar 2024 13:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 07:06:03.571169
- Title: $V_kD:$ Improving Knowledge Distillation using Orthogonal Projections
- Title(参考訳): $v_kd:$直交射影を用いた知識蒸留の改善
- Authors: Roy Miles, Ismail Elezi, Jiankang Deng
- Abstract要約: 知識蒸留は、小規模かつ効率的なディープラーニングモデルの訓練に有効な方法である。
しかし、1つのメソッドの有効性は、他のタスク、モダリティ、または他のアーキテクチャに転送する際に退化することができる。
本稿では,この制限に対処する新しい制約付き特徴蒸留法を提案する。
- 参考スコア(独自算出の注目度): 36.27954884906034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is an effective method for training small and
efficient deep learning models. However, the efficacy of a single method can
degenerate when transferring to other tasks, modalities, or even other
architectures. To address this limitation, we propose a novel constrained
feature distillation method. This method is derived from a small set of core
principles, which results in two emerging components: an orthogonal projection
and a task-specific normalisation. Equipped with both of these components, our
transformer models can outperform all previous methods on ImageNet and reach up
to a 4.4% relative improvement over the previous state-of-the-art methods. To
further demonstrate the generality of our method, we apply it to object
detection and image generation, whereby we obtain consistent and substantial
performance improvements over state-of-the-art. Code and models are publicly
available: https://github.com/roymiles/vkd
- Abstract(参考訳): 知識蒸留は、小規模かつ効率的なディープラーニングモデルの訓練に有効な方法である。
しかし、単一のメソッドの有効性は、他のタスクやモダリティ、さらには他のアーキテクチャへの転送時に退化することができる。
この制限に対処するために,新しい制約付き特徴蒸留法を提案する。
この手法は、直交射影とタスク固有の正規化という2つの新しい要素をもたらす、小さな基本原理の集合から導かれる。
これら2つのコンポーネントを組み込んだトランスフォーマーモデルは、ImageNetのすべての従来のメソッドを上回り、従来の最先端メソッドよりも4.4%の相対的な改善を達成できます。
さらに,提案手法の汎用性を示すために,オブジェクト検出と画像生成に適用し,最先端よりも一貫性と大幅な性能向上を実現する。
コードとモデルが公開されている。 https://github.com/roymiles/vkd
関連論文リスト
- Distill-then-prune: An Efficient Compression Framework for Real-time Stereo Matching Network on Edge Devices [5.696239274365031]
本稿では, 知識蒸留とモデルプルーニングを取り入れて, 速度と精度のトレードオフを克服し, 新たな戦略を提案する。
エッジデバイスに高い精度を提供しながら、リアルタイム性能を維持するモデルを得た。
論文 参考訳(メタデータ) (2024-05-20T06:03:55Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Distilling from Similar Tasks for Transfer Learning on a Budget [38.998980344852846]
転送学習は、ラベルの少ないトレーニングに有効なソリューションであるが、大きなベースモデルの計算的にコストのかかる微調整を犠牲にすることがしばしばある。
本稿では,半教師付きクロスドメイン蒸留による計算と精度のトレードオフを軽減することを提案する。
我々の手法は、ソースデータにアクセスする必要はなく、単にソースモデルの機能や擬似ラベルが必要なだけである。
論文 参考訳(メタデータ) (2023-04-24T17:59:01Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - It's All in the Head: Representation Knowledge Distillation through
Classifier Sharing [0.29360071145551075]
教師と学生間の分類器共有による表現蒸留の促進のための2つのアプローチを提案する。
提案手法は, 画像分類, きめ細かい分類, 顔認証など, 様々なデータセットやタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-01-18T13:10:36Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Knowledge Graph Embedding with Atrous Convolution and Residual Learning [4.582412257655891]
本稿では, 単純だが効果的な畳み込みに基づく知識グラフ埋め込み法を提案する。
アトラスな畳み込みを用いることで、機能相互作用を効果的に増加させる。
元の情報が忘れられた問題と、勾配の問題が消え/露呈する問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T00:57:23Z) - On the Orthogonality of Knowledge Distillation with Other Techniques:
From an Ensemble Perspective [34.494730096460636]
知識蒸留は,効率的なニューラルネットワークを実用化するための強力な装置であることを示す。
また,知識蒸留を他の手法と効果的に統合する方法についても紹介する。
論文 参考訳(メタデータ) (2020-09-09T06:14:59Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。