論文の概要: Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers
- arxiv url: http://arxiv.org/abs/2404.09326v3
- Date: Wed, 30 Oct 2024 16:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:25.566449
- Title: Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers
- Title(参考訳): 視覚変換器のFew-Shot蒸留における軽量コピーと低ランク適応
- Authors: Diana-Nicoleta Grigore, Mariana-Iuliana Georgescu, Jon Alvarez Justo, Tor Johansen, Andreea Iuliana Ionescu, Radu Tudor Ionescu,
- Abstract要約: 視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
- 参考スコア(独自算出の注目度): 22.1372572833618
- License:
- Abstract: Few-shot knowledge distillation recently emerged as a viable approach to harness the knowledge of large-scale pre-trained models, using limited data and computational resources. In this paper, we propose a novel few-shot feature distillation approach for vision transformers. Our approach is based on two key steps. Leveraging the fact that vision transformers have a consistent depth-wise structure, we first copy the weights from intermittent layers of existing pre-trained vision transformers (teachers) into shallower architectures (students), where the intermittence factor controls the complexity of the student transformer with respect to its teacher. Next, we employ an enhanced version of Low-Rank Adaptation (LoRA) to distill knowledge into the student in a few-shot scenario, aiming to recover the information processing carried out by the skipped teacher layers. We present comprehensive experiments with supervised and self-supervised transformers as teachers, on six data sets from various domains (natural, medical and satellite images) and tasks (classification and segmentation). The empirical results confirm the superiority of our approach over state-of-the-art competitors. Moreover, the ablation results demonstrate the usefulness of each component of the proposed pipeline. We release our code at https://github.com/dianagrigore/WeCoLoRA.
- Abstract(参考訳): 近年、限られたデータと計算資源を用いて、大規模事前学習モデルの知識を活用するための有効な方法として、知識蒸留が登場した。
本稿では,視覚変換器のための新規な数発的特徴蒸留手法を提案する。
私たちのアプローチは2つの重要なステップに基づいています。
視覚変換器が一貫した深度構造を持つという事実を利用して、私たちはまず既存の学習済み視覚変換器(教師)の断続的な層からより浅いアーキテクチャ(学生)へと重みをコピーします。
次に,Low-Rank Adaptation (LoRA) の強化版を用いて,教師層が行う情報処理の回復を目的とした,数ショットのシナリオで学生に知識を抽出する。
本研究では,教師としての教師と教師としての自己指導型トランスフォーマーを用いた総合的な実験を行い,様々な領域(自然・医療・衛星画像)とタスク(分類・セグメント化)の6つのデータセットについて述べる。
その結果,最先端の競合相手に対するアプローチの優位性が確認された。
さらに, アブレーションの結果から, 提案したパイプラインの各コンポーネントの有用性が示された。
コードについてはhttps://github.com/dianagrigore/WeCoLoRA.comで公開しています。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation [4.242540533823568]
トランスフォーマーモデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。
本研究では, 最先端変圧器モデルを監督し, 効率的なCNNモデルを構築するために, DisDepth と呼ばれるMDE のクロスアーキテクチャ知識蒸留手法を提案する。
提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。
論文 参考訳(メタデータ) (2024-04-25T07:55:47Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Supervised Masked Knowledge Distillation for Few-Shot Transformers [36.46755346410219]
そこで本稿では,少数のトランスフォーマーを対象としたSMKD(Supervised Masked Knowledge Distillation Model)を提案する。
従来の自己管理手法と比較して,クラストークンとパッチトークンの両方でクラス内知識蒸留が可能である。
簡単な設計による手法は,従来の手法を大きなマージンで上回り,新たなスタート・オブ・ザ・アーティファクトを実現する。
論文 参考訳(メタデータ) (2023-03-25T03:31:46Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Towards a Unified Foundation Model: Jointly Pre-Training Transformers on
Unpaired Images and Text [93.11954811297652]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。
我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。
実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文 参考訳(メタデータ) (2021-12-14T00:20:55Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Co-advise: Cross Inductive Bias Distillation [39.61426495884721]
視覚変換器を訓練するための新しい蒸留法を提案する。
我々は,学生トランスフォーマーを共同で助言するために,異なるアーキテクチャ的帰納バイアスを持つ軽量な教員を紹介した。
私たちのビジョントランスフォーマー(CivT)は、ImageNetで同じアーキテクチャの以前のトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2021-06-23T13:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。