論文の概要: Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models
- arxiv url: http://arxiv.org/abs/2309.01479v3
- Date: Sun, 29 Oct 2023 14:20:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:28:19.357116
- Title: Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models
- Title(参考訳): ビジョンランゲージ事前学習モデルのパラメータと計算効率向上学習
- Authors: Qiong Wu, Wei Yu, Yiyi Zhou, Shubin Huang, Xiaoshuai Sun, Rongrong Ji
- Abstract要約: 本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
- 参考スコア(独自算出の注目度): 79.34513906324727
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With ever increasing parameters and computation, vision-language pre-trained
(VLP) models exhibit prohibitive expenditure in downstream task adaption.
Recent endeavors mainly focus on parameter efficient transfer learning (PETL)
for VLP models by only updating a small number of parameters. However,
excessive computational overhead still plagues the application of VLPs. In this
paper, we aim at parameter and computation efficient transfer learning (PCETL)
for VLP models. In particular, PCETL not only needs to limit the number of
trainable parameters in VLP models, but also to reduce the computational
redundancy during inference, thus enabling a more efficient transfer. To
approach this target, we propose a novel dynamic architecture skipping (DAS)
approach towards effective PCETL. Instead of directly optimizing the intrinsic
architectures of VLP models, DAS first observes the significances of their
modules to downstream tasks via a reinforcement learning (RL) based process,
and then skips the redundant ones with lightweight networks, i.e., adapters,
according to the obtained rewards. In this case, the VLP model can well
maintain the scale of trainable parameters while speeding up its inference on
downstream tasks. To validate DAS, we apply it to two representative VLP
models, namely ViLT and METER, and conduct extensive experiments on a bunch of
VL tasks. The experimental results not only show the great advantages of DAS in
reducing computational complexity, e.g. -11.97% FLOPs of METER on VQA2.0, but
also confirm its competitiveness against existing PETL methods in terms of
parameter scale and performance. Our source code is given in our appendix.
- Abstract(参考訳): パラメータや計算の増大に伴い、視覚言語事前訓練(VLP)モデルは下流のタスク適応において不当な支出を示す。
近年の取り組みは,少数のパラメータを更新するだけで,VLPモデルのパラメータ効率のよい転送学習(PETL)に焦点を当てている。
しかしながら、過剰な計算オーバーヘッドはVLPの適用を悩ませている。
本稿では,VLPモデルに対するパラメータと計算効率のよい伝達学習(PCETL)を提案する。
特に、PCETLは、VLPモデルのトレーニング可能なパラメータの数を制限するだけでなく、推論時の計算冗長性を低減し、より効率的な転送を可能にする。
そこで本研究では,新しい動的アーキテクチャスキップ (DAS) アプローチをPCETLに提案する。
VLPモデルの本質的なアーキテクチャを直接最適化する代わりに、DASはまず、強化学習(RL)ベースのプロセスを通じて、下流タスクに対するモジュールの重要性を観察し、得られた報酬に従って、軽量ネットワーク、すなわちアダプタで冗長なモジュールをスキップする。
この場合、VLPモデルは、下流タスクでの推論を高速化しながら、トレーニング可能なパラメータのスケールを適切に維持することができる。
DASを検証するために、VLTとMETERという2つの代表的なVLPモデルに適用し、多数のVLタスクについて広範な実験を行う。
実験結果は、例えば、VQA2.0上でのMETERの-11.97% FLOPsのような計算複雑性の削減におけるDASの大きな利点を示すだけでなく、パラメータスケールと性能の観点から既存のPETL法との競合性も確認している。
ソースコードは付録に書かれています。
関連論文リスト
- Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Unsupervised Domain Adaption Harnessing Vision-Language Pre-training [4.327763441385371]
本稿では、教師なしドメイン適応(UDA)におけるビジョンランゲージ事前学習モデルのパワーを活用することに焦点を当てる。
クロスモーダル知識蒸留(CMKD)と呼ばれる新しい手法を提案する。
提案手法は,従来のベンチマーク手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-05T02:37:59Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - VLN-PETL: Parameter-Efficient Transfer Learning for Vision-and-Language
Navigation [23.22586831122625]
本稿では,VLNタスクのためのPETL法を初めて検討し,VLN固有のPETL法であるVLN-PETLを提案する。
VLN-PETLは、完全な微調整に匹敵するあるいはさらに優れた性能を達成し、有望なマージンを持つ他のPETL法よりも優れる。
論文 参考訳(メタデータ) (2023-08-20T05:55:30Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。