論文の概要: Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models
- arxiv url: http://arxiv.org/abs/2309.01479v3
- Date: Sun, 29 Oct 2023 14:20:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:28:19.357116
- Title: Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models
- Title(参考訳): ビジョンランゲージ事前学習モデルのパラメータと計算効率向上学習
- Authors: Qiong Wu, Wei Yu, Yiyi Zhou, Shubin Huang, Xiaoshuai Sun, Rongrong Ji
- Abstract要約: 本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
- 参考スコア(独自算出の注目度): 79.34513906324727
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With ever increasing parameters and computation, vision-language pre-trained
(VLP) models exhibit prohibitive expenditure in downstream task adaption.
Recent endeavors mainly focus on parameter efficient transfer learning (PETL)
for VLP models by only updating a small number of parameters. However,
excessive computational overhead still plagues the application of VLPs. In this
paper, we aim at parameter and computation efficient transfer learning (PCETL)
for VLP models. In particular, PCETL not only needs to limit the number of
trainable parameters in VLP models, but also to reduce the computational
redundancy during inference, thus enabling a more efficient transfer. To
approach this target, we propose a novel dynamic architecture skipping (DAS)
approach towards effective PCETL. Instead of directly optimizing the intrinsic
architectures of VLP models, DAS first observes the significances of their
modules to downstream tasks via a reinforcement learning (RL) based process,
and then skips the redundant ones with lightweight networks, i.e., adapters,
according to the obtained rewards. In this case, the VLP model can well
maintain the scale of trainable parameters while speeding up its inference on
downstream tasks. To validate DAS, we apply it to two representative VLP
models, namely ViLT and METER, and conduct extensive experiments on a bunch of
VL tasks. The experimental results not only show the great advantages of DAS in
reducing computational complexity, e.g. -11.97% FLOPs of METER on VQA2.0, but
also confirm its competitiveness against existing PETL methods in terms of
parameter scale and performance. Our source code is given in our appendix.
- Abstract(参考訳): パラメータや計算の増大に伴い、視覚言語事前訓練(VLP)モデルは下流のタスク適応において不当な支出を示す。
近年の取り組みは,少数のパラメータを更新するだけで,VLPモデルのパラメータ効率のよい転送学習(PETL)に焦点を当てている。
しかしながら、過剰な計算オーバーヘッドはVLPの適用を悩ませている。
本稿では,VLPモデルに対するパラメータと計算効率のよい伝達学習(PCETL)を提案する。
特に、PCETLは、VLPモデルのトレーニング可能なパラメータの数を制限するだけでなく、推論時の計算冗長性を低減し、より効率的な転送を可能にする。
そこで本研究では,新しい動的アーキテクチャスキップ (DAS) アプローチをPCETLに提案する。
VLPモデルの本質的なアーキテクチャを直接最適化する代わりに、DASはまず、強化学習(RL)ベースのプロセスを通じて、下流タスクに対するモジュールの重要性を観察し、得られた報酬に従って、軽量ネットワーク、すなわちアダプタで冗長なモジュールをスキップする。
この場合、VLPモデルは、下流タスクでの推論を高速化しながら、トレーニング可能なパラメータのスケールを適切に維持することができる。
DASを検証するために、VLTとMETERという2つの代表的なVLPモデルに適用し、多数のVLタスクについて広範な実験を行う。
実験結果は、例えば、VQA2.0上でのMETERの-11.97% FLOPsのような計算複雑性の削減におけるDASの大きな利点を示すだけでなく、パラメータスケールと性能の観点から既存のPETL法との競合性も確認している。
ソースコードは付録に書かれています。
関連論文リスト
- Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks [54.31708859631821]
低ランクボトルネックにおける視覚言語アライメントを高めるために,ルーティング関数と呼ばれる操作群を提案する。
ルーティング関数は線形演算を採用し、新しいトレーニング可能なパラメータを導入しない。
様々な視覚言語 PEFT タスクにまたがって,小型ながら一貫した改善を観察する。
論文 参考訳(メタデータ) (2024-03-14T13:27:42Z) - VLN-PETL: Parameter-Efficient Transfer Learning for Vision-and-Language
Navigation [23.22586831122625]
本稿では,VLNタスクのためのPETL法を初めて検討し,VLN固有のPETL法であるVLN-PETLを提案する。
VLN-PETLは、完全な微調整に匹敵するあるいはさらに優れた性能を達成し、有望なマージンを持つ他のPETL法よりも優れる。
論文 参考訳(メタデータ) (2023-08-20T05:55:30Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。
事前学習型ビジュアルを提案する。
効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文 参考訳(メタデータ) (2023-04-26T15:55:29Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。