論文の概要: PROMISE: Prompt-Attentive Hierarchical Contrastive Learning for Robust Cross-Modal Representation with Missing Modalities
- arxiv url: http://arxiv.org/abs/2511.10997v1
- Date: Fri, 14 Nov 2025 06:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.453666
- Title: PROMISE: Prompt-Attentive Hierarchical Contrastive Learning for Robust Cross-Modal Representation with Missing Modalities
- Title(参考訳): ProMISE: モダリティを欠いたロバストなクロスモーダル表現のためのプロンプト型階層的コントラスト学習
- Authors: Jiajun Chen, Sai Cheng, Yutao Yuan, Yirui Zhang, Haitao Yuan, Peng Peng, Yi Zhong,
- Abstract要約: 本稿では,不備なモダリティ下でのロバストなクロスモーダル表現のためのPROMISEという新しいフレームワークを提案する。
ProMISEはマルチモーダル・プロンプト・ラーニングを階層的なコントラスト・ラーニング・フレームワークに組み込んでおり、特別に設計されたプロンプト・アテンション・メカニズムを備えている。
ベンチマークデータセットを用いて行った実験は、包括的なアブレーション研究とともに、現在の最先端マルチモーダル手法と比較して、ProMISEの優れた性能を明らかに示している。
- 参考スコア(独自算出の注目度): 16.291126782001935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal models integrating natural language and visual information have substantially improved generalization of representation models. However, their effectiveness significantly declines in real-world situations where certain modalities are missing or unavailable. This degradation primarily stems from inconsistent representation learning between complete multimodal data and incomplete modality scenarios. Existing approaches typically address missing modalities through relatively simplistic generation methods, yet these approaches fail to adequately preserve cross-modal consistency, leading to suboptimal performance. To overcome this limitation, we propose a novel multimodal framework named PROMISE, a PROMpting-Attentive HIerarchical ContraStive LEarning approach designed explicitly for robust cross-modal representation under conditions of missing modalities. Specifically, PROMISE innovatively incorporates multimodal prompt learning into a hierarchical contrastive learning framework, equipped with a specially designed prompt-attention mechanism. This mechanism dynamically generates robust and consistent representations for scenarios where particular modalities are absent, thereby effectively bridging the representational gap between complete and incomplete data. Extensive experiments conducted on benchmark datasets, along with comprehensive ablation studies, clearly demonstrate the superior performance of PROMISE compared to current state-of-the-art multimodal methods.
- Abstract(参考訳): 自然言語と視覚情報を統合するマルチモーダルモデルは、表現モデルの一般化を大幅に改善した。
しかし、特定のモダリティが欠落したり、利用できない現実の状況では、その効果は著しく低下する。
この分解は主に、完全なマルチモーダルデータと不完全なモダリティシナリオの間の一貫性のない表現学習に由来する。
既存のアプローチは通常、比較的単純化された生成手法によって欠落したモダリティに対処するが、これらのアプローチは相互の整合性を適切に保たず、最適以下の性能をもたらす。
この制限を克服するために,Prompting-Attentive HIerarchical ContraStive LEarningアプローチであるPrommiseという新しいマルチモーダルフレームワークを提案する。
具体的には、ProMISEが革新的にマルチモーダル・プロンプト・ラーニングを階層的なコントラスト・ラーニング・フレームワークに組み込み、特別に設計されたプロンプト・アテンション・メカニズムを備えている。
このメカニズムは、特定のモダリティが欠如しているシナリオに対して、動的に堅牢で一貫した表現を生成し、それによって、完全データと不完全データの間の表現的ギャップを効果的に埋める。
ベンチマークデータセットで行った大規模な実験は、包括的なアブレーション研究とともに、現在の最先端マルチモーダル手法と比較して、ProMISEの優れた性能を明らかに示している。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - I$^3$-MRec: Invariant Learning with Information Bottleneck for Incomplete Modality Recommendation [56.55935146424585]
textbfIncomplete textbfModality textbfRecommendation の textbfInformation ボトルネック原理を用いて学習する textbfI$3$-MRec を紹介する。
それぞれのモダリティを異なる意味環境として扱うことで、I$3$-MRecは、優先指向の表現を学習するために不変リスク最小化(IRM)を採用する。
I$3$-MRecは、様々なモダリティ欠落シナリオにおいて、既存の最先端MSSメソッドを一貫して上回る
論文 参考訳(メタデータ) (2025-08-06T09:29:50Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning [21.127950337002776]
マルチモーダル・センティメント・アナリティクス(MSA)は、複数のモーダルを通して人間の感情を理解し、認識することを目的とした重要な研究分野である。
本稿では,不確実なモダリティの下でのタスクのための階層表現学習フレームワーク(HRLF)を提案する。
HRLFは、不確実なモダリティ欠失例において、MSA性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-11-05T04:04:41Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。
非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T02:12:26Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。