論文の概要: VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks
- arxiv url: http://arxiv.org/abs/2112.06825v1
- Date: Mon, 13 Dec 2021 17:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 14:40:47.623710
- Title: VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks
- Title(参考訳): VL-Adapter:視覚・言語タスクのためのパラメータ効率の良い伝達学習
- Authors: Yi-Lin Sung, Jaemin Cho, Mohit Bansal
- Abstract要約: 近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
- 参考スコア(独自算出の注目度): 71.40656211497162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, fine-tuning language models pre-trained on large text corpora have
provided huge improvements on vision-and-language (V&L) tasks as well as on
pure language tasks. However, fine-tuning the entire parameter set of
pre-trained models becomes impractical since the model size is growing rapidly.
Hence, in this paper, we introduce adapter-based parameter-efficient transfer
learning techniques to V&L models such as VL-BART and VL-T5. We evaluate our
methods in a unified multi-task setup on four diverse V&L tasks: VQAv2, GQA,
NLVR2 , and MSCOCO image captioning. With careful training and thorough
experiments, we benchmark three popular adapter-based methods (Adapter,
Hyperformer, Compacter) against the standard full fine-tuning and the recently
proposed prompt-tuning approach. We also enhance the efficiency and performance
of adapters by sharing their weights to attain knowledge across tasks. Our
results demonstrate that training the adapter with the weight-sharing technique
(4.4% of total parameters) can match the performance of fine-tuning the entire
model. Lastly, we present a comprehensive analysis including the combination of
adapter and task-specific prompts and the impact of V&L pre-training on
adapters. Our code is available at: https://github.com/ylsung/VL_adapter.
- Abstract(参考訳): 近年,大文字コーパスで事前学習した微調整言語モデルによって,視覚言語(v&l)タスクや純粋言語タスクが大幅に改善されている。
しかし,モデルサイズが急速に増大しているため,事前学習したモデルのパラメータ集合全体を微調整することは現実的ではない。
そこで本研究では,VL-BARTやVL-T5といったV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
VQAv2, GQA, NLVR2, MSCOCO画像キャプションの4つのタスクに対して, マルチタスクを統一した構成で評価を行った。
注意深いトレーニングと徹底的な実験により、一般的なアダプタベースの3つの手法(Adapter、Hyperformer、Compacter)を標準のフルチューニングと最近提案されたプロンプトチューニングアプローチと比較した。
また,タスク間の知識を得るための重みを共有することで,アダプタの効率性と性能も向上する。
以上の結果から,モデル全体の微調整性能に適合する重み付け技術(総パラメータの4.4%)でアダプタを訓練できることが示される。
最後に,アダプタとタスク固有のプロンプトの組み合わせ,アダプタへのv&l事前トレーニングの影響など,包括的な分析を行う。
私たちのコードは、https://github.com/ylsung/VL_adapter.comで利用可能です。
関連論文リスト
- Generative Adapter: Contextualizing Language Models in Parameters with A Single Forward Pass [109.34230156454574]
大規模言語モデル(LM)は一般的に、新しい文脈におけるパフォーマンスを改善するために適応される。
微調整によってトレーニングコストが大幅に増加し、推論オーバーヘッドが増加する。
我々は、新しいコンテキストを低ランクLMアダプタに直接マッピングする効率的で効率的な適応手法である$GenerativeAdapter$を紹介した。
論文 参考訳(メタデータ) (2024-11-08T00:42:47Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Mini but Mighty: Finetuning ViTs with Mini Adapters [7.175668563148084]
アダプタの寸法が小さい場合、アダプタは性能が悪くなります。
この問題に対処するトレーニングフレームワークMiMiを提案する。
本手法は,精度と訓練されたパラメータの最良のトレードオフを見つける上で,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-07T10:41:27Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - A Comprehensive Analysis of Adapter Efficiency [20.63580880344425]
自然言語理解(NLU)タスクの場合, アダプタのパラメータ効率は, モデル全体の微調整に比べて, 効率向上に寄与しないことを示す。
NLUタスクの適度なサイズのモデルには、アダプタを使うのではなく、完全な微調整やマルチタスクのトレーニングに頼ることを推奨する。
論文 参考訳(メタデータ) (2023-05-12T14:05:45Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both
Language and Vision-and-Language Tasks [38.43269863509866]
パラメータ効率のよい微調整をいかに行うかは、素早い移動学習と展開においてかなり重要になっている。
我々は、純粋言語とV&Lタスクの両方で効果的に機能する新しいパラメータ効率変換学習フレームワークを設計する。
提案フレームワークは,マルチタスク学習におけるトレーニング可能なパラメータを少なくし,最先端の手法に比べて優れた性能と伝達能力を実現している。
論文 参考訳(メタデータ) (2022-03-08T06:51:33Z) - Exploiting Adapters for Cross-lingual Low-resource Speech Recognition [52.40623653290499]
言語間の言語適応は、複数のリッチリソース言語を活用して低リソースターゲット言語のためのモデルを構築するという問題を解決することを目的としている。
パラメータ効率のよい言語間音声適応のための複数のアダプタの性能を調べるためのアダプタを提案する。
論文 参考訳(メタデータ) (2021-05-18T08:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。