論文の概要: iDAT: inverse Distillation Adapter-Tuning
- arxiv url: http://arxiv.org/abs/2403.15750v1
- Date: Sat, 23 Mar 2024 07:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:12:36.471978
- Title: iDAT: inverse Distillation Adapter-Tuning
- Title(参考訳): iDAT:逆蒸留アダプタチューニング
- Authors: Jiacheng Ruan, Jingsheng Gao, Mingye Xie, Daize Dong, Suncheng Xiang, Ting Liu, Yuzhuo Fu,
- Abstract要約: Adapter-Tuning (AT) 法では、事前訓練されたモデルを凍結し、下流の知識を得るためにトレーニング可能なアダプタモジュールを導入する。
本稿では,慎重に設計したアダプタモジュールを製作する代わりに,AT方式の蒸留フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.485126287621439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapter-Tuning (AT) method involves freezing a pre-trained model and introducing trainable adapter modules to acquire downstream knowledge, thereby calibrating the model for better adaptation to downstream tasks. This paper proposes a distillation framework for the AT method instead of crafting a carefully designed adapter module, which aims to improve fine-tuning performance. For the first time, we explore the possibility of combining the AT method with knowledge distillation. Via statistical analysis, we observe significant differences in the knowledge acquisition between adapter modules of different models. Leveraging these differences, we propose a simple yet effective framework called inverse Distillation Adapter-Tuning (iDAT). Specifically, we designate the smaller model as the teacher and the larger model as the student. The two are jointly trained, and online knowledge distillation is applied to inject knowledge of different perspective to student model, and significantly enhance the fine-tuning performance on downstream tasks. Extensive experiments on the VTAB-1K benchmark with 19 image classification tasks demonstrate the effectiveness of iDAT. The results show that using existing AT method within our iDAT framework can further yield a 2.66% performance gain, with only an additional 0.07M trainable parameters. Our approach compares favorably with state-of-the-arts without bells and whistles. Our code is available at https://github.com/JCruan519/iDAT.
- Abstract(参考訳): Adapter-Tuning (AT) 法は、訓練済みモデルの凍結と、下流の知識を得るためにトレーニング可能なアダプタモジュールを導入し、下流のタスクに適応するためにモデルを校正する。
本稿では, 微調整性能の向上を目的とした, 慎重に設計したアダプタモジュールを製作する代わりに, AT方式の蒸留フレームワークを提案する。
まず,AT法と知識蒸留の併用の可能性を検討する。
統計的解析により、異なるモデルのアダプタモジュール間の知識獲得における大きな違いが観察される。
これらの違いを生かして、逆蒸留適応 (iDAT) と呼ばれるシンプルで効果的なフレームワークを提案する。
具体的には、より小さなモデルを教師として、より大きなモデルを学生として指定する。
両者は共同で訓練され、オンライン知識蒸留は、異なる視点の知識を学生モデルに注入し、下流タスクにおける微調整性能を著しく向上させる。
画像分類タスク19のVTAB-1Kベンチマークの大規模な実験は、iDATの有効性を実証している。
その結果、既存のATメソッドをiDATフレームワークで使用すれば、さらに2.66%の性能向上が達成でき、さらに0.07Mのトレーニング可能なパラメータが追加で得られることがわかった。
我々のアプローチは、ベルやホイッスルのない最先端の手法と好意的に比較する。
私たちのコードはhttps://github.com/JCruan519/iDAT.comで公開されています。
関連論文リスト
- Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Indirect Gradient Matching for Adversarial Robust Distillation [17.06592851567578]
敵の訓練は敵の堅牢性を大幅に改善するが、優れた性能は大きなモデルで主に達成される。
既存の反対蒸留法は教師の足跡をガイドとして活用する。
本稿では,学生の入力勾配と教師の入力勾配とを間接的に一致させる蒸留モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:32:38Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - Conditional Adapters: Parameter-efficient Transfer Learning with Fast
Inference [53.65845680932835]
Conditional Adapter (CoDA) はパラメータ効率の変換学習手法であり、推論効率も向上する。
様々な言語、ビジョン、音声タスクにおいて、CoDAは2倍から8倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2023-04-11T03:17:37Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Adaptive Instance Distillation for Object Detection in Autonomous
Driving [3.236217153362305]
本稿では,教師の知識を学生に選択的に付与し,知識蒸留の性能を向上させるための適応型インスタンス蒸留(AID)を提案する。
また,AIDは教師モデルの性能向上に有効であることが示された。
論文 参考訳(メタデータ) (2022-01-26T18:06:33Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。