論文の概要: Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks
- arxiv url: http://arxiv.org/abs/2403.09377v2
- Date: Fri, 12 Jul 2024 12:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 05:07:34.766619
- Title: Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks
- Title(参考訳): 低ランクボツネックを用いたビジョンランゲージパラメータ効率の良いファインチューニングへのルーティング関数の導入
- Authors: Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens,
- Abstract要約: 低ランクボトルネックにおける視覚言語(VL)アライメントを高めるために,ルーティング関数と呼ばれる操作群を提案する。
様々なVL PEFT設定において、ルーティング機能は元のPEFT法の性能を大幅に改善する。
- 参考スコア(独自算出の注目度): 54.31708859631821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mainstream parameter-efficient fine-tuning (PEFT) methods, such as LoRA or Adapter, project a model's hidden states to a lower dimension, allowing pre-trained models to adapt to new data through this low-rank bottleneck. However, PEFT tasks involving multiple modalities, like vision-language (VL) tasks, require not only adaptation to new data but also learning the relationship between different modalities. Targeting at VL PEFT tasks, we propose a family of operations, called routing functions, to enhance VL alignment in the low-rank bottlenecks. These feature routing functions adopt linear operations and do not introduce new trainable parameters. In-depth analyses are conducted to study their behavior. In various VL PEFT settings, the routing functions significantly improve performance of the original PEFT methods, achieving over 20\% improvement on VQAv2 ($\text{RoBERTa}_{\text{large}}$+ViT-L/16) and 30\% on COCO Captioning (GPT2-medium+ViT-L/16). Also when fine-tuning a pre-trained multimodal model such as CLIP-BART, we observe smaller but consistent improvements across a range of VL PEFT tasks. Our code is available at https://github.com/tingyu215/Routing_VLPEFT.
- Abstract(参考訳): LoRA(英語版)やAdapter(英語版)のようなメインストリームパラメータ効率の良い微調整(PEFT)手法は、モデルの隠れた状態を低い次元に投影し、トレーニング済みのモデルがこの低ランクのボトルネックを通じて新しいデータに適応できるようにする。
しかしながら、視覚言語(VL)タスクのような複数のモダリティを含むPEFTタスクは、新しいデータへの適応だけでなく、異なるモダリティ間の関係も学習する必要がある。
VL PEFTタスクをターゲットに、低ランクボトルネックにおけるVLアライメントを高めるためにルーティング関数と呼ばれる一連の操作を提案する。
これらの特徴ルーティング関数は線形演算を採用し、新しいトレーニング可能なパラメータを導入しない。
詳細な分析を行ない、その振る舞いを研究する。
様々なVL PEFT設定において、ルーティング機能は元のPEFTメソッドのパフォーマンスを大幅に改善し、VQAv2$\text{RoBERTa}_{\text{large}}$+ViT-L/16)とCOCOキャプション(GPT2-medium+ViT-L/16)を20以上改善した。
また,CLIP-BARTのような事前学習型マルチモーダルモデルの微調整では,VL PEFTタスクの幅が小さくても一貫した改善が観察される。
私たちのコードはhttps://github.com/tingyu215/Routing_VLPEFTで利用可能です。
関連論文リスト
- MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning [28.254318215697527]
VLM(Vision-Language Model)は、多数のパラメータによって計算コストが高い。
VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。
タスク非依存型視覚言語計画(TA-Language Pruning:TA-Language Pruning)
TA言語のための第1のグラデーションフリー・プルーニングフレームワークであるMultimodal FlowPruning (MULTIFLOW)を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:51:21Z) - Context-PEFT: Efficient Multi-Modal, Multi-Task Fine-Tuning [12.648711621637663]
この論文は小説を紹介します。
COCO-Efficient Fine-Tuning (PEFT) framework for multi-modal, multi-task transfer learning with pre-trained language model。
トークンのドメインに基づいて異なる適応パラメータ群を学習するContext-PEFTを提案する。
提案手法はキャプションタスクで評価され、類似したデータ制約下での完全な微調整よりも優れる。
論文 参考訳(メタデータ) (2023-12-14T13:00:24Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。