論文の概要: BMIP: Bi-directional Modality Interaction Prompt Learning for VLM
- arxiv url: http://arxiv.org/abs/2501.07769v1
- Date: Tue, 14 Jan 2025 00:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 17:02:04.341433
- Title: BMIP: Bi-directional Modality Interaction Prompt Learning for VLM
- Title(参考訳): BMIP:VLMのための双方向モダリティインタラクションプロンプト学習
- Authors: Song-Lin Lv, Yu-Yang Chen, Zhi Zhou, Ming Yang, Lan-Zhe Guo,
- Abstract要約: 本稿では,$underlinetextbfBi-directional underlinetextbfModality underlinetextbfInteraction underlinetextbfPrompt (BMIP)$という新しいプロンプト学習手法を提案する。
BMIPは、注目層の情報を学習し、単純な情報集約法と比較して、訓練性およびモーダル間整合性を高めることにより、バイモーダル情報を重み付けする。
- 参考スコア(独自算出の注目度): 18.196058385987506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have exhibited remarkable generalization capabilities, and prompt learning for VLMs has attracted great attention for the ability to adapt pre-trained VLMs to specific downstream tasks. However, existing studies mainly focus on single-modal prompts or uni-directional modality interaction, overlooking the powerful alignment effects resulting from the interaction between the vision and language modalities. To this end, we propose a novel prompt learning method called $\underline{\textbf{B}}i-directional \underline{\textbf{M}}odality \underline{\textbf{I}}nteraction \underline{\textbf{P}}rompt (BMIP)$, which dynamically weights bi-modal information through learning the information of the attention layer, enhancing trainability and inter-modal consistency compared to simple information aggregation methods. To evaluate the effectiveness of prompt learning methods, we propose a more realistic evaluation paradigm called open-world generalization complementing the widely adopted cross-dataset transfer and domain generalization tasks. Comprehensive experiments on various datasets reveal that BMIP not only outperforms current state-of-the-art methods across all three evaluation paradigms but is also flexible enough to be combined with other prompt-based methods for consistent performance enhancement.
- Abstract(参考訳): 視覚言語モデル(VLM)は、顕著な一般化能力を示し、VLMの迅速な学習は、訓練済みのVLMを特定の下流タスクに適応させる能力に大きな注目を集めている。
しかし、既存の研究は主に単一モーダルプロンプトや一方向モーダル相互作用に焦点を当てており、視覚と言語モダリティの相互作用による強力なアライメント効果を見越している。
そこで本研究では,注意層の情報の学習,学習性の向上,簡単な情報集約法と比較して,バイモーダル情報を動的に重み付けする,$\underline{\textbf{B}}i-direct \underline{\textbf{M}}odality \underline{\textbf{I}}nteraction \underline{\textbf{P}}rompt (BMIP)$という新しいプロンプト学習手法を提案する。
提案手法の有効性を評価するため,広範に採用されているクロスデータセット転送とドメイン一般化タスクを補完するオープンワールド一般化という,より現実的な評価パラダイムを提案する。
様々なデータセットに対する総合的な実験により、BMIPは3つの評価パラダイムすべてで現在の最先端メソッドよりも優れているだけでなく、一貫性のあるパフォーマンス向上のための他のプロンプトベースの手法と組み合わせられるほど柔軟であることが明らかとなった。
関連論文リスト
- Multi-Modal Self-Supervised Semantic Communication [52.76990720898666]
本稿では,マルチモーダルな自己教師型学習を活用し,タスク非依存の特徴抽出を強化するマルチモーダルセマンティックコミュニケーションシステムを提案する。
提案手法は,訓練関連通信オーバーヘッドを最小限に抑えつつ,モダリティの不変性とモダリティ特有の特徴の両方を効果的に捉えている。
この結果は、セマンティックコミュニケーションにおけるマルチモーダルな自己教師型学習の利点を浮き彫りにし、より効率的でスケーラブルなエッジ推論システムへの道を開いた。
論文 参考訳(メタデータ) (2025-03-18T06:13:02Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Alt-MoE:A Scalable Framework for Bidirectional Multimodal Alignment and Efficient Knowledge Integration [6.928469290518152]
マルチモーダル学習は、共有潜在空間内で異なるモダリティを整列させることにより、著しく進歩した。
直接アライメントは、豊富なモダル内知識を十分に活用するのに苦労し、しばしばクロスモーダル表現を達成するために広範なトレーニングデータを必要とする。
Alt-MoEはスケーラブルなマルチモーダルアライメントフレームワークで、モダリティをまたいだ多方向コネクタとして専門家(MoE)モデルの混合を利用する。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-29T03:30:09Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。