論文の概要: Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting
- arxiv url: http://arxiv.org/abs/2306.00409v2
- Date: Tue, 22 Aug 2023 07:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 20:50:06.693076
- Title: Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting
- Title(参考訳): 動的ビジュアルプロンプティングによる視覚言語課題への事前学習言語モデルの適用
- Authors: Shubin Huang, Qiong Wu, Yiyi Zhou, Weijie Chen, Rongsheng Zhang,
Xiaoshuai Sun, Rongrong Ji
- Abstract要約: 事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
- 参考スコア(独自算出の注目度): 83.21164539349273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have played an increasing role in
multimedia research. In terms of vision-language (VL) tasks, they often serve
as a language encoder and still require an additional fusion network for VL
reasoning, resulting in excessive memory overhead. In this paper, we focus on
exploring PLMs as a stand-alone model for VL reasoning tasks. Inspired by the
recently popular prompt tuning, we first prove that the processed visual
features can be also projected onto the semantic space of PLMs and act as
prompt tokens to bridge the gap between single- and multi-modal learning.
However, this solution exhibits obvious redundancy in visual information and
model inference, and the placement of prompt tokens also greatly affects the
final performance. Based on these observations, we further propose a novel
transfer learning approach for PLMs, termed Dynamic Visual Prompting (DVP).
Concretely, DVP first deploys a cross-attention module to obtain text-related
and compact visual prompt tokens, thereby greatly reducing the input length of
PLMs. To obtain the optimal placement, we also equip DVP with a
reinforcement-learning based search algorithm, which can automatically merge
DVP with PLMs for different VL tasks via a very short search process. In
addition, we also experiment DVP with the recently popular adapter approach to
keep the most parameters of PLMs intact when adapting to VL tasks, helping PLMs
achieve a quick shift between single- and multi-modal tasks. We apply DVP to
two representative PLMs, namely BERT and T5, and conduct extensive experiments
on a set of VL reasoning benchmarks including VQA2.0, GQA and SNLIVE. The
experimental results not only show the advantage of DVP on efficiency and
performance, but also confirm its superiority in adapting pre-trained language
models to VL tasks.
- Abstract(参考訳): 事前学習型言語モデル (PLM) はマルチメディア研究において役割を担っている。
視覚言語(VL)タスクでは、しばしば言語エンコーダとして機能し、VL推論のための追加の融合ネットワークを必要とするため、過剰なメモリオーバーヘッドが発生する。
本稿では,VL推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
最近普及しているプロンプトチューニングに触発されて、処理された視覚特徴がPLMのセマンティック空間に投影され、シングルモーダル学習とマルチモーダル学習のギャップを埋めるためのプロンプトトークンとして機能することを証明する。
しかし、この解は視覚情報やモデル推論に明らかな冗長性を示し、プロンプトトークンの配置も最終的な性能に大きな影響を及ぼす。
これらの観測に基づいて,動的ビジュアル・プロンプティング (DVP) と呼ばれる PLM のための新しい移動学習手法を提案する。
具体的には、dvpはまずクロスアテンションモジュールをデプロイしてテキスト関連でコンパクトなビジュアルプロンプトトークンを取得し、plmの入力長を大幅に削減します。
最適配置を得るためには,DVPに強化学習に基づく探索アルゴリズムを装備し,非常に短い探索プロセスによって異なるVLタスクに対して,DVPとPLMを自動マージする。
さらに,最近普及しているアダプタ手法であるDVPを用いて,VLタスクに適応する際のPLMのパラメータの大部分をそのまま維持し,シングルモーダルタスクとマルチモーダルタスクの迅速なシフトを実現するために,DVPを実験した。
VQA2.0, GQA, SNLIVE を含む一連の VL 推論ベンチマークにおいて, DVP を BERT と T5 の2つの代表的 PLM に適用する。
実験結果はDVPの効率と性能の優位性を示すだけでなく、事前学習された言語モデルをVLタスクに適用する際の優位性も確認した。
関連論文リスト
- VLM-PL: Advanced Pseudo Labeling approach Class Incremental Object
Detection with Vision-Language Model [9.78713756452171]
VLM-PL(Vision-Language Model Assisted Pseudo-Labeling)を紹介する。
この手法は視覚言語モデル(VLM)を用いて、追加のモデルトレーニングを必要とせず、擬似接地真実(GT)の正しさを検証する。
VLM-PLは改良された擬似GTと実GTを統合し、新しい知識と古い知識を効果的に組み合わせている。
論文 参考訳(メタデータ) (2024-03-08T14:23:00Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - Towards Versatile and Efficient Visual Knowledge Integration into
Pre-trained Language Models with Cross-Modal Adapters [16.44174900423759]
我々は,事前学習された視覚言語モデルで学習した視覚的およびテキスト的知識を活用するために,新しいプラグイン・アンド・プレイ・モジュールであるX-adapterを提案する。
提案手法は,オブジェクト指向推論および自然言語理解タスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-12T10:08:46Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。