論文の概要: Multiple-Exit Tuning: Towards Inference-Efficient Adaptation for Vision Transformer
- arxiv url: http://arxiv.org/abs/2409.13999v1
- Date: Sat, 21 Sep 2024 03:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:06:38.448390
- Title: Multiple-Exit Tuning: Towards Inference-Efficient Adaptation for Vision Transformer
- Title(参考訳): マルチエクイットチューニング:視覚変換器の推論効率向上に向けて
- Authors: Zheng Liu, Jinchao Zhu, Nannan Li, Gao Huang,
- Abstract要約: マルチエクイットチューニング(MET)と呼ばれる推論効率のチューニング手法を提案する。
METは、複数の出口を事前訓練された視覚変換器(ViT)のバックボーンに統合する。
推論段階では、簡単なサンプルは早期の出口で終了し、十分なサンプルだけが最後の出口に流れるので、簡単なサンプルの計算コストを節約できる。
- 参考スコア(独自算出の注目度): 47.85315815897107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient transfer learning (PETL) has shown great potential in adapting a vision transformer (ViT) pre-trained on large-scale datasets to various downstream tasks. Existing studies primarily focus on minimizing the number of learnable parameters. Although these methods are storage-efficient, they allocate excessive computational resources to easy samples, leading to inefficient inference. To address this issue, we introduce an inference-efficient tuning method termed multiple-exit tuning (MET). MET integrates multiple exits into the pre-trained ViT backbone. Since the predictions in ViT are made by a linear classifier, each exit is equipped with a linear prediction head. In inference stage, easy samples will exit at early exits and only hard enough samples will flow to the last exit, thus saving the computational cost for easy samples. MET consists of exit-specific adapters (E-adapters) and graph regularization. E-adapters are designed to extract suitable representations for different exits. To ensure parameter efficiency, all E-adapters share the same down-projection and up-projection matrices. As the performances of linear classifiers are influenced by the relationship among samples, we employ graph regularization to improve the representations fed into the classifiers at early exits. Finally, we conduct extensive experiments to verify the performance of MET. Experimental results show that MET has an obvious advantage over the state-of-the-art methods in terms of both accuracy and inference efficiency.
- Abstract(参考訳): パラメータ効率変換学習(PETL)は、大規模データセットで事前訓練された視覚変換器(ViT)を様々な下流タスクに適応させる大きな可能性を示している。
既存の研究は主に学習可能なパラメータの数を最小化することに焦点を当てている。
これらの手法はストレージ効率が高いが、過剰な計算資源を簡単なサンプルに割り当て、非効率な推論をもたらす。
この問題に対処するために,Multiple-Exit tuning (MET) と呼ばれる推論効率の高いチューニング手法を提案する。
METは、トレーニング済みのViTバックボーンに複数の出口を統合する。
ViTの予測は線形分類器によって行われるので、各出口には線形予測ヘッドが設けられる。
推論段階では、簡単なサンプルは早期の出口で終了し、十分なサンプルだけが最後の出口に流れるので、簡単なサンプルの計算コストを節約できる。
METは、出口固有のアダプタ(Eアダプタ)とグラフ正規化から構成される。
E-adapterは、異なる出口に対する適切な表現を抽出するように設計されている。
パラメータ効率を確保するために、すべてのEアダプタは同じダウンプロジェクションとアッププロジェクション行列を共有します。
線形分類器の性能はサンプル間の関係に影響されるため、初期出口における分類器に供給される表現を改善するためにグラフ正規化を用いる。
最後に,METの性能を検証するための広範囲な実験を行った。
実験の結果,METは精度と推論効率の両方の観点から,最先端手法に対して明らかな優位性を示した。
関連論文リスト
- CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - AdapterEM: Pre-trained Language Model Adaptation for Generalized Entity
Matching using Adapter-tuning [3.4754314910585626]
本稿では,アダプタをベースとした微調整PrLMのためのパラメータ効率のパラダイムを提案する。
提案手法は,フルスケールのPrLMファインチューニングとプロンプトチューニングのベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-30T04:03:23Z) - PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。
事前学習型ビジュアルを提案する。
効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文 参考訳(メタデータ) (2023-04-26T15:55:29Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。