Fugu-MT 論文翻訳(概要): Adapting Pre-trained Language Models to Vision-Language Tasks via Dynamic Visual Prompting

論文の概要: Adapting Pre-trained Language Models to Vision-Language Tasks via Dynamic Visual Prompting

arxiv url: http://arxiv.org/abs/2306.00409v2
Date: Tue, 22 Aug 2023 07:45:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 20:50:06.693076
Title: Adapting Pre-trained Language Models to Vision-Language Tasks via Dynamic Visual Prompting
Title（参考訳）: 動的ビジュアルプロンプティングによる視覚言語課題への事前学習言語モデルの適用
Authors: Shubin Huang, Qiong Wu, Yiyi Zhou, Weijie Chen, Rongsheng Zhang, Xiaoshuai Sun, Rongrong Ji
Abstract要約: 事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
参考スコア（独自算出の注目度）: 83.21164539349273
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models (PLMs) have played an increasing role in multimedia research. In terms of vision-language (VL) tasks, they often serve as a language encoder and still require an additional fusion network for VL reasoning, resulting in excessive memory overhead. In this paper, we focus on exploring PLMs as a stand-alone model for VL reasoning tasks. Inspired by the recently popular prompt tuning, we first prove that the processed visual features can be also projected onto the semantic space of PLMs and act as prompt tokens to bridge the gap between single- and multi-modal learning. However, this solution exhibits obvious redundancy in visual information and model inference, and the placement of prompt tokens also greatly affects the final performance. Based on these observations, we further propose a novel transfer learning approach for PLMs, termed Dynamic Visual Prompting (DVP). Concretely, DVP first deploys a cross-attention module to obtain text-related and compact visual prompt tokens, thereby greatly reducing the input length of PLMs. To obtain the optimal placement, we also equip DVP with a reinforcement-learning based search algorithm, which can automatically merge DVP with PLMs for different VL tasks via a very short search process. In addition, we also experiment DVP with the recently popular adapter approach to keep the most parameters of PLMs intact when adapting to VL tasks, helping PLMs achieve a quick shift between single- and multi-modal tasks. We apply DVP to two representative PLMs, namely BERT and T5, and conduct extensive experiments on a set of VL reasoning benchmarks including VQA2.0, GQA and SNLIVE. The experimental results not only show the advantage of DVP on efficiency and performance, but also confirm its superiority in adapting pre-trained language models to VL tasks.
Abstract（参考訳）: 事前学習型言語モデル (PLM) はマルチメディア研究において役割を担っている。視覚言語(VL)タスクでは、しばしば言語エンコーダとして機能し、VL推論のための追加の融合ネットワークを必要とするため、過剰なメモリオーバーヘッドが発生する。本稿では,VL推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。最近普及しているプロンプトチューニングに触発されて、処理された視覚特徴がPLMのセマンティック空間に投影され、シングルモーダル学習とマルチモーダル学習のギャップを埋めるためのプロンプトトークンとして機能することを証明する。しかし、この解は視覚情報やモデル推論に明らかな冗長性を示し、プロンプトトークンの配置も最終的な性能に大きな影響を及ぼす。これらの観測に基づいて,動的ビジュアル・プロンプティング (DVP) と呼ばれる PLM のための新しい移動学習手法を提案する。具体的には、dvpはまずクロスアテンションモジュールをデプロイしてテキスト関連でコンパクトなビジュアルプロンプトトークンを取得し、plmの入力長を大幅に削減します。最適配置を得るためには,DVPに強化学習に基づく探索アルゴリズムを装備し,非常に短い探索プロセスによって異なるVLタスクに対して,DVPとPLMを自動マージする。さらに,最近普及しているアダプタ手法であるDVPを用いて,VLタスクに適応する際のPLMのパラメータの大部分をそのまま維持し,シングルモーダルタスクとマルチモーダルタスクの迅速なシフトを実現するために,DVPを実験した。 VQA2.0, GQA, SNLIVE を含む一連の VL 推論ベンチマークにおいて, DVP を BERT と T5 の2つの代表的 PLM に適用する。実験結果はDVPの効率と性能の優位性を示すだけでなく、事前学習された言語モデルをVLタスクに適用する際の優位性も確認した。

関連論文リスト

OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。 OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-09T08:23:20Z)
Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。 ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文参考訳（メタデータ） (2024-04-18T02:40:31Z)
MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning [28.254318215697527]
VLM(Vision-Language Model)は、多数のパラメータによって計算コストが高い。 VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。タスク非依存型視覚言語計画(TA-Language Pruning:TA-Language Pruning) TA言語のための第1のグラデーションフリー・プルーニングフレームワークであるMultimodal FlowPruning (MULTIFLOW)を提案する。
論文参考訳（メタデータ） (2024-04-08T15:51:21Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。 MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文参考訳（メタデータ） (2023-05-24T11:06:15Z)
Towards Versatile and Efficient Visual Knowledge Integration into Pre-trained Language Models with Cross-Modal Adapters [16.44174900423759]
我々は,事前学習された視覚言語モデルで学習した視覚的およびテキスト的知識を活用するために,新しいプラグイン・アンド・プレイ・モジュールであるX-adapterを提案する。提案手法は,オブジェクト指向推論および自然言語理解タスクの性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-05-12T10:08:46Z)
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。 PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。 PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文参考訳（メタデータ） (2022-05-23T10:17:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。