論文の概要: DiMPLe -- Disentangled Multi-Modal Prompt Learning: Enhancing Out-Of-Distribution Alignment with Invariant and Spurious Feature Separation
- arxiv url: http://arxiv.org/abs/2506.21237v1
- Date: Thu, 26 Jun 2025 13:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.095933
- Title: DiMPLe -- Disentangled Multi-Modal Prompt Learning: Enhancing Out-Of-Distribution Alignment with Invariant and Spurious Feature Separation
- Title(参考訳): DiMPLe -- アンタングル型マルチモーダル・プロンプト学習:不変および純粋特徴分離による外部分布アライメントの強化
- Authors: Umaima Rahman, Mohammad Yaqub, Dwarikanath Mahapatra,
- Abstract要約: DiMPLeは、視覚と言語モダリティをまたいだ不変かつ刺激的な特徴をアンタングルする新しいアプローチである。
提案手法は,(1)不変特徴と刺激特徴の相互情報の最小化,(2)刺激特徴の正規化,(3)不変特徴のコントラスト学習の3つの主要な目的を組み合わす。
- 参考スコア(独自算出の注目度): 12.871317188671787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DiMPLe (Disentangled Multi-Modal Prompt Learning), a novel approach to disentangle invariant and spurious features across vision and language modalities in multi-modal learning. Spurious correlations in visual data often hinder out-of-distribution (OOD) performance. Unlike prior methods focusing solely on image features, DiMPLe disentangles features within and across modalities while maintaining consistent alignment, enabling better generalization to novel classes and robustness to distribution shifts. Our method combines three key objectives: (1) mutual information minimization between invariant and spurious features, (2) spurious feature regularization, and (3) contrastive learning on invariant features. Extensive experiments demonstrate DiMPLe demonstrates superior performance compared to CoOp-OOD, when averaged across 11 diverse datasets, and achieves absolute gains of 15.27 in base class accuracy and 44.31 in novel class accuracy.
- Abstract(参考訳): DMPLe(Disentangled Multi-Modal Prompt Learning)は,多モード学習における視覚・言語モダリティにまたがる不変かつ刺激的な特徴を解消する新しい手法である。
視覚データの鮮やかな相関は、しばしばアウト・オブ・ディストリビューション(OOD)のパフォーマンスを妨げる。
画像特徴のみに焦点を絞った従来の方法とは異なり、DMPLeは、一貫性を維持しながら、モダリティ内および横断的な特徴を分離し、新しいクラスへのより良い一般化と分散シフトへの堅牢性を実現する。
提案手法は,(1)不変特徴と刺激特徴の相互情報の最小化,(2)刺激特徴の正規化,(3)不変特徴のコントラスト学習の3つの主要な目的を組み合わす。
大規模な実験により、DMPLeは11種類のデータセットで平均されるCoOp-OODよりも優れた性能を示し、ベースクラスの精度は15.27、新しいクラスの精度は44.31である。
関連論文リスト
- Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - MT-SLVR: Multi-Task Self-Supervised Learning for Transformation
In(Variant) Representations [2.94944680995069]
本稿では,パラメータ効率のよいマルチタスク型自己教師型フレームワーク(MT-SLVR)を提案する。
我々は,様々な音声領域から抽出された数ショットの分類タスクに対するアプローチを評価し,分類性能の向上を実証した。
論文 参考訳(メタデータ) (2023-05-29T09:10:50Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。