論文の概要: Progressive Multi-modal Conditional Prompt Tuning
- arxiv url: http://arxiv.org/abs/2404.11864v2
- Date: Wed, 24 Apr 2024 12:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 16:05:24.560829
- Title: Progressive Multi-modal Conditional Prompt Tuning
- Title(参考訳): プログレッシブ・マルチモーダル・コンディショナル・プロンプトチューニング
- Authors: Xiaoyu Qiu, Hao Feng, Yuechen Wang, Wengang Zhou, Houqiang Li,
- Abstract要約: 事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。
本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
- 参考スコア(独自算出の注目度): 92.50645776024624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models (VLMs) have shown remarkable generalization capabilities via prompting, which leverages VLMs as knowledge bases to extract information beneficial for downstream tasks. However, existing methods primarily employ uni-modal prompting, which only engages a uni-modal branch, failing to simultaneously adjust vision-language (V-L) features. Additionally, the one-pass forward pipeline in VLM encoding struggles to align V-L features that have a huge gap. Confronting these challenges, we propose a novel method, Progressive Multi-modal conditional Prompt Tuning (ProMPT). ProMPT exploits a recurrent structure, optimizing and aligning V-L features by iteratively utilizing image and current encoding information. It comprises an initialization and a multi-modal iterative evolution (MIE) module. Initialization is responsible for encoding images and text using a VLM, followed by a feature filter that selects text features similar to image. MIE then facilitates multi-modal prompting through class-conditional vision prompting, instance-conditional text prompting, and feature filtering. In each MIE iteration, vision prompts are obtained from filtered text features via a vision generator, promoting image features to focus more on target object during vision prompting. The encoded image features are fed into a text generator to produce text prompts that are more robust to class shifts. Thus, V-L features are progressively aligned, enabling advance from coarse to exact prediction. Extensive experiments are conducted in three settings to evaluate the efficacy of ProMPT. The results indicate that ProMPT outperforms existing methods on average across all settings, demonstrating its superior generalization and robustness. Code is available at https://github.com/qiuxiaoyu9954/ProMPT.
- Abstract(参考訳): 事前学習された視覚言語モデル(VLM)は、VLMを知識ベースとして活用し、下流タスクに有用な情報を抽出するプロンプトを通じて、顕著な一般化能力を示す。
しかし、既存の手法は主にユニモーダルプロンプトを採用しており、これはユニモーダル分岐のみを介し、視覚言語(V-L)の機能を同時に調整することができない。
さらに、VLMエンコーディングにおけるワンパスフォワードパイプラインは、大きなギャップを持つV-L機能を調整するのに苦労している。
これらの課題を克服し,Progressive Multi-modal Conditional Prompt Tuning (ProMPT)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
初期化と多モード反復進化(MIE)モジュールを含む。
初期化は、VLMを使用して画像とテキストを符号化し、続いて、画像に似たテキスト特徴を選択する特徴フィルタが続く。
MIEは、クラス条件の視覚プロンプト、インスタンス条件のテキストプロンプト、機能フィルタリングによるマルチモーダルプロンプトを容易にする。
各MIEイテレーションでは、視覚生成器を介してフィルタリングされたテキスト特徴から視覚プロンプトが得られ、視覚プロンプト中に対象物にもっと焦点を合わせるように画像特徴が促進される。
エンコードされたイメージ機能はテキストジェネレータに入力され、クラスシフトに対してより堅牢なテキストプロンプトを生成する。
これにより、V-Lの機能は徐々に整列され、粗い状態から正確な予測へと進むことができる。
ProMPTの有効性を評価するために, 広範囲な実験を3つの環境で行った。
その結果, ProMPTはすべての設定において, 従来の手法よりも優れ, より優れた一般化とロバスト性を示すことがわかった。
コードはhttps://github.com/qiuxiaoyu9954/ProMPTで入手できる。
関連論文リスト
- Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Language Models as Black-Box Optimizers for Vision-Language Models [65.95774084277191]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するブラックボックスアプローチを開発し,モデルパラメータや機能埋め込み,さらには出力ロジットへのアクセスを回避した。
難易度の高い1ショット画像分類設定では、ImageNetを含む11データセットの平均1.5%のホワイトボックス連続プロンプト法(CoOp)を超過する。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。