論文の概要: MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality
- arxiv url: http://arxiv.org/abs/2409.04693v1
- Date: Sat, 7 Sep 2024 03:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 21:14:48.235946
- Title: MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality
- Title(参考訳): MuAP: モダリティを欠く視覚言語モデルのための多段階適応型プロンプト学習
- Authors: Ruiting Dai, Yuqiao Tan, Lisi Mo, Tao He, Ke Qin, Shuang Liang,
- Abstract要約: モダリティが不完全である場合の学習行動について,本研究は初めて包括的調査を行う。
本稿では,マルチモーダルなプロンプトを生成し,マルチステップなプロンプトチューニングを実現するための,新しい多段階適応型プロンプト学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.03329286331929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, prompt learning has garnered considerable attention for its success in various Vision-Language (VL) tasks. However, existing prompt-based models are primarily focused on studying prompt generation and prompt strategies with complete modality settings, which does not accurately reflect real-world scenarios where partial modality information may be missing. In this paper, we present the first comprehensive investigation into prompt learning behavior when modalities are incomplete, revealing the high sensitivity of prompt-based models to missing modalities. To this end, we propose a novel Multi-step Adaptive Prompt Learning (MuAP) framework, aiming to generate multimodal prompts and perform multi-step prompt tuning, which adaptively learns knowledge by iteratively aligning modalities. Specifically, we generate multimodal prompts for each modality and devise prompt strategies to integrate them into the Transformer model. Subsequently, we sequentially perform prompt tuning from single-stage and alignment-stage, allowing each modality-prompt to be autonomously and adaptively learned, thereby mitigating the imbalance issue caused by only textual prompts that are learnable in previous works. Extensive experiments demonstrate the effectiveness of our MuAP and this model achieves significant improvements compared to the state-of-the-art on all benchmark datasets
- Abstract(参考訳): 近年,VL(Vision-Language)タスクの成功に対して,迅速な学習が注目されている。
しかし、既存のプロンプトベースモデルは主に、完全なモダリティ設定によるプロンプト生成とプロンプト戦略の研究に重点を置いている。
本稿では,モダリティが不完全である場合の即時学習行動に関する最初の包括的調査を行い,モダリティの欠如に対するプロンプトベースモデルの高い感度を明らかにする。
そこで本研究では,多段階適応型プロンプト学習(MuAP)フレームワークを提案する。
具体的には、各モードに対してマルチモーダルプロンプトを生成し、それらをトランスフォーマーモデルに統合するためのプロンプト戦略を考案する。
その後、単段階およびアライメント段階からのプロンプトチューニングを行い、各モータリティ・プロンプトを自律的かつ適応的に学習し、従来の作品で学習可能なテキストプロンプトのみによる不均衡問題を緩和する。
大規模な実験により、我々の MuAP の有効性が実証され、このモデルは全てのベンチマークデータセットの最先端よりも大幅に改善された。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning [15.844451999840588]
token-wise Adaptive for Multi-modal Prompt Learning (APLe) を提案する。
APLeは、V-Lモデルを採用する上で絶対的に有利な、プロンプト長の実験において、堅牢性と好ましい性能を示す。
論文 参考訳(メタデータ) (2024-01-12T04:54:01Z) - Adaptive Multi-Modality Prompt Learning [21.86784369327551]
上記の問題に対処するために,適応型マルチモーダリティ・プロンプト学習を提案する。
画像プロンプト学習は、まず意味のないパッチをマスキングし、学習可能なパラメータとテキストからの情報をパディングすることで、サンプル内およびサンプル外一般化を実現する。
実データを用いた実験結果から,本手法は下流の異なるタスクにおいてSOTA法より優れていることが示された。
論文 参考訳(メタデータ) (2023-11-30T12:10:22Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models [12.397136690734865]
マルチモーダル・ディープ・サイコフィック・プロンプト・タニングと呼ばれる新しいアプローチを提案し,その手法を MuDPT と呼ぶ。
MuDPTは、モデルに依存しない変換ネットワークを学習し、深い階層的な双方向のプロンプト融合を可能にすることで、独立したマルチモーダル・プロンプトチューニングを拡張している。
最先端の手法と比較すると, MuDPT は認識能力と一般化能力が向上し, マージンは明らかである。
論文 参考訳(メタデータ) (2023-06-20T09:15:52Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。