論文の概要: VL-PET: Vision-and-Language Parameter-Efficient Tuning via Granularity
Control
- arxiv url: http://arxiv.org/abs/2308.09804v1
- Date: Fri, 18 Aug 2023 20:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:50:45.432318
- Title: VL-PET: Vision-and-Language Parameter-Efficient Tuning via Granularity
Control
- Title(参考訳): VL-PET:粒度制御による視覚・言語パラメータ効率調整
- Authors: Zi-Yuan Hu, Yanyang Li, Michael R. Lyu, Liwei Wang
- Abstract要約: ビジョン・アンド・ランゲージ (VL) では, モジュール修正をエンコーダ・デコーダ PLM に統合するために, パラメータ効率調整 (PET) 技術が提案されている。
我々はビジョン・アンド・ランゲージを提案する。
モジュール化を効果的に制御するための効率的なチューニング(VL-PET)フレームワーク。
- 参考スコア(独自算出の注目度): 44.73827206809393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the model size of pre-trained language models (PLMs) grows rapidly, full
fine-tuning becomes prohibitively expensive for model training and storage. In
vision-and-language (VL), parameter-efficient tuning (PET) techniques are
proposed to integrate modular modifications (e.g., Adapter and LoRA) into
encoder-decoder PLMs. By tuning a small set of trainable parameters, these
techniques perform on par with full fine-tuning. However, excessive modular
modifications and neglecting the functionality gap between the encoders and
decoders can lead to performance degradation, while existing PET techniques
(e.g., VL-Adapter) overlook these critical issues. In this paper, we propose a
Vision-and-Language Parameter-Efficient Tuning (VL-PET) framework to impose
effective control over modular modifications via a novel granularity-controlled
mechanism. Considering different granularity-controlled matrices generated by
this mechanism, a variety of model-agnostic VL-PET modules can be instantiated
from our framework for better efficiency and effectiveness trade-offs. We
further propose lightweight PET module designs to enhance VL alignment and
modeling for the encoders and maintain text generation for the decoders.
Extensive experiments conducted on four image-text tasks and four video-text
tasks demonstrate the efficiency, effectiveness and transferability of our
VL-PET framework. In particular, our VL-PET-large with lightweight PET module
designs significantly outperforms VL-Adapter by 2.92% (3.41%) and LoRA by 3.37%
(7.03%) with BART-base (T5-base) on image-text tasks. Furthermore, we validate
the enhanced effect of employing our VL-PET designs on existing PET techniques,
enabling them to achieve significant performance improvements. Our code is
available at https://github.com/HenryHZY/VL-PET.
- Abstract(参考訳): 事前学習された言語モデル(plm)のモデルサイズが急速に大きくなるにつれて、モデルのトレーニングやストレージには完全な微調整が必須になる。
ビジョン・アンド・ランゲージ(VL)では、モジュール修飾(AdapterやLoRAなど)をエンコーダ・デコーダ PLM に統合するために、パラメータ効率調整(PET)技術が提案されている。
トレーニング可能なパラメータの小さなセットをチューニングすることで、これらのテクニックは完全な微調整と同等に機能する。
しかしながら、過剰なモジュラー修正とエンコーダとデコーダの機能ギャップの無視はパフォーマンスの低下につながる可能性があるが、既存のPET技術(例えばVL-Adapter)はこれらの重要な問題を見逃している。
本稿では,新しい粒度制御機構により,モジュラー修正を効果的に制御するためのVL-PET(Vision-and-Language Parameter-Efficient Tuning)フレームワークを提案する。
この機構によって生成される粒度制御の異なる行列を考えると、モデルに依存しない様々なVL-PETモジュールが我々のフレームワークからインスタンス化され、効率と効率のトレードオフが改善される。
さらに,エンコーダのVLアライメントとモデリングを強化し,デコーダのテキスト生成を維持するために,軽量なPETモジュールの設計を提案する。
4つの画像テキストタスクと4つのビデオテキストタスクで実施された大規模な実験は、VL-PETフレームワークの効率、有効性、転送性を示す。
特に、軽量PETモジュールを設計したVL-PETは、VL-Adapterを2.92%(3.41%)、LoRAを3.37%(7.03%)、BART-base(T5ベース)を画像テキストタスクで大幅に上回っている。
さらに,既存のPET技術に対するVL-PET設計の適用の強化効果を検証し,大幅な性能向上を実現した。
私たちのコードはhttps://github.com/HenryHZY/VL-PETで利用可能です。
関連論文リスト
- ConPET: Continual Parameter-Efficient Tuning for Large Language Models [65.48107393731861]
継続的な学習には、新しいタスクへのモデルの継続的な適応が必要である。
継続性を提案する。
効率的なチューニング(ConPET) - 一般化可能なパラダイム。
大規模言語モデルの連続的なタスク適応。
論文 参考訳(メタデータ) (2023-09-26T08:52:04Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Exploring the Impact of Model Scaling on Parameter-Efficient Tuning [100.61202305296275]
大規模事前学習言語モデル(PLM)を効果的に駆動できるスケーリング効率チューニング(PET)法
小型PLMでは、PET法には通常顕著な性能差がある。
本稿では,Arbitrary PET (APET) 法という,より柔軟なPET法を提案する。
論文 参考訳(メタデータ) (2023-06-04T10:10:54Z) - A Unified Continual Learning Framework with General Parameter-Efficient
Tuning [56.250772378174446]
「事前学習$rightarrow$ダウンストリーム適応」は、継続学習の新しい機会と課題を提示する。
我々は,PETの1つのインスタンス化としてプロンプトを位置づけ,ラーニング・アキュミュレーション・アンサンブル(LAE)と呼ばれる統一的なCLフレームワークを提案する。
PET(Adapter、LoRA、Prefixなど)は、トレーニング済みのモデルをより少ないパラメータとリソースで下流のタスクに適応させることができる。
論文 参考訳(メタデータ) (2023-03-17T15:52:45Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。