論文の概要: Decipher the Modality Gap in Multimodal Contrastive Learning: From Convergent Representations to Pairwise Alignment
- arxiv url: http://arxiv.org/abs/2510.03268v2
- Date: Tue, 07 Oct 2025 18:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.185768
- Title: Decipher the Modality Gap in Multimodal Contrastive Learning: From Convergent Representations to Pairwise Alignment
- Title(参考訳): マルチモーダルコントラスト学習におけるモダリティギャップの解読:収束表現からペアワイズアライメントへ
- Authors: Lingjie Yi, Raphael Douady, Chao Chen,
- Abstract要約: マルチモーダルコントラスト学習は、異なるモーダルからのデータを共有埋め込み空間に埋め込むことを目的としている。
実験的な証拠は 異なるモダリティの表現が 埋め込み空間の 完全に別々の領域を占めることを示している
本稿では,MCLの収束最適表現とトレーニング最適化時のモーダリティアライメントを解析するための最初の理論的枠組みを紹介する。
- 参考スコア(独自算出の注目度): 6.276865284763687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal contrastive learning (MCL) aims to embed data from different modalities in a shared embedding space. However, empirical evidence shows that representations from different modalities occupy completely separate regions of embedding space, a phenomenon referred to as the modality gap. Moreover, experimental findings on how the size of the modality gap influences downstream performance are inconsistent. These observations raise two key questions: (1) What causes the modality gap? (2) How does it affect downstream tasks? To address these questions, this paper introduces the first theoretical framework for analyzing the convergent optimal representations of MCL and the modality alignment when training is optimized. Specifically, we prove that without any constraint or under the cone constraint, the modality gap converges to zero. Under the subspace constraint (i.e., representations of two modalities fall into two distinct hyperplanes due to dimension collapse), the modality gap converges to the smallest angle between the two hyperplanes. This result identifies \emph{dimension collapse} as the fundamental origin of the modality gap. Furthermore, our theorems demonstrate that paired samples cannot be perfectly aligned under the subspace constraint. The modality gap influences downstream performance by affecting the alignment between sample pairs. We prove that, in this case, perfect alignment between two modalities can still be achieved via two ways: hyperplane rotation and shared space projection.
- Abstract(参考訳): マルチモーダルコントラスト学習(MCL)は、異なるモーダルのデータを共有埋め込み空間に埋め込むことを目的としている。
しかし、実験的な証拠は、異なるモジュラリティの表現が埋め込み空間の完全に独立した領域を占有していることを示し、これはモジュラリティギャップと呼ばれる現象である。
さらに、モダリティギャップの大きさが下流性能にどのように影響するかに関する実験結果も一致しない。
これらの観察は、(1)モダリティギャップの原因は何か?
(2)下流タスクにはどのように影響しますか?
そこで本研究では,MCLの収束最適表現とトレーニング最適化時のモーダリティアライメントを解析するための最初の理論的枠組みを提案する。
具体的には、いかなる制約もコーンの制約もなければ、モダリティギャップは 0 に収束することを示す。
部分空間の制約(すなわち、2つのモジュラリティの表現は次元の崩壊によって2つの異なる超平面に分解される)の下で、モダリティギャップは2つの超平面の間の最小の角度に収束する。
この結果は、モダリティギャップの根源として 'emph{dimension collapse} を特定できる。
さらに、我々の定理は、ペア化されたサンプルは部分空間の制約の下で完全に整列できないことを示す。
モダリティギャップは、サンプルペア間のアライメントに影響を与えることにより、下流のパフォーマンスに影響を与える。
この場合、2つのモード間の完全なアライメントは、超平面回転と共有空間射影という2つの方法によって達成可能であることを証明している。
関連論文リスト
- Diffusion Bridge or Flow Matching? A Unifying Framework and Comparative Analysis [57.614436689939986]
拡散ブリッジとフローマッチングは、任意の分布間の変換において魅力的な経験的性能を示した。
我々は,これらのフレームワークを最適制御のレンズを通して再キャストし,拡散橋のコスト関数が低いことを証明した。
これらの理論的主張を裏付けるために,潜伏変圧器上に構築された拡散橋の新しい強力なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:45:22Z) - DADM: Dual Alignment of Domain and Modality for Face Anti-spoofing [58.62312400472865]
マルチモーダル・フェイス・アンチ・スプーフィング (FAS) が顕著な研究対象となっている。
相互情報に基づくモダリティ間のアライメントモジュールを提案する。
サブドメイン超平面とモダリティ角マージンの両方を整列する双対アライメント最適化法を用いる。
論文 参考訳(メタデータ) (2025-03-01T10:12:00Z) - Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP [22.076206386214565]
コントラスト言語-画像事前学習は、ゼロショット分類とクロスモーダル視覚言語タスクにおいて顕著に改善されている。
幾何学的な観点から、CLIP埋め込み空間は明らかにモダリティギャップを持つ。
本稿では,AlignCLIPが組込みのクロスモーダルアライメントにおいて顕著な拡張を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-25T15:24:02Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image
Translation [56.44946660061753]
本稿では,最大空間摂動整合(MSPC)と呼ばれる普遍正規化手法を提案する。
MSPCは空間摂動関数(T)と変換演算子(G)を可換(TG = GT)に強制する。
提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-23T19:59:04Z) - Encouraging Disentangled and Convex Representation with Controllable
Interpolation Regularization [15.725515910594725]
制御不能な不整合表現学習(C-Dis-RL)に焦点を当てる。
制御可能な補間正規化法(CIR)を提案する。
論文 参考訳(メタデータ) (2021-12-06T16:52:07Z) - Lifting the Convex Conjugate in Lagrangian Relaxations: A Tractable
Approach for Continuous Markov Random Fields [53.31927549039624]
断片的な離散化は既存の離散化問題と矛盾しないことを示す。
この理論を2つの画像のマッチング問題に適用する。
論文 参考訳(メタデータ) (2021-07-13T12:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。