論文の概要: Closing the Modality Gap Aligns Group-Wise Semantics
- arxiv url: http://arxiv.org/abs/2601.18525v1
- Date: Mon, 26 Jan 2026 14:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.869102
- Title: Closing the Modality Gap Aligns Group-Wise Semantics
- Title(参考訳): Modality Gap Aligns Group-Wise Semantics のクローン化
- Authors: Eleonora Grassucci, Giordano Cicchetti, Emanuele Frasca, Aurelio Uncini, Danilo Comminiello,
- Abstract要約: マルチモーダル学習において、CLIPは複数のモーダルをまたいだ共有潜在空間を学習するためのテキストファクト手法として認識されている。
CLIPベースの損失は意味レベルでのモダリティを効果的に整合させるが、結果として生じる潜在空間は部分的にしか共有されないことが多い。
本稿では,この不一致を2モーダル設定で一貫的に低減する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 16.991869322977077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multimodal learning, CLIP has been recognized as the \textit{de facto} method for learning a shared latent space across multiple modalities, placing similar representations close to each other and moving them away from dissimilar ones. Although CLIP-based losses effectively align modalities at the semantic level, the resulting latent spaces often remain only partially shared, revealing a structural mismatch known as the modality gap. While the necessity of addressing this phenomenon remains debated, particularly given its limited impact on instance-wise tasks (e.g., retrieval), we prove that its influence is instead strongly pronounced in group-level tasks (e.g., clustering). To support this claim, we introduce a novel method designed to consistently reduce this discrepancy in two-modal settings, with a straightforward extension to the general $n$-modal case. Through our extensive evaluation, we demonstrate our novel insight: while reducing the gap provides only marginal or inconsistent improvements in traditional instance-wise tasks, it significantly enhances group-wise tasks. These findings may reshape our understanding of the modality gap, highlighting its key role in improving performance on tasks requiring semantic grouping.
- Abstract(参考訳): マルチモーダル学習において、CLIPは複数のモーダルにまたがる共有潜在空間を学習し、類似した表現を互いに近くに配置し、それらを異種空間から遠ざけるための「textit{de facto}」メソッドとして認識されている。
CLIPに基づく損失は、意味レベルでのモダリティを効果的に整合させるが、結果として生じる潜在空間は部分的にのみ共有され、モダリティギャップとして知られる構造的ミスマッチが明らかになる。
この現象に対処する必要性は、特にインスタンスワイドタスク(例えば、検索)に限定的な影響があることから議論されているが、むしろグループレベルのタスク(例えば、クラスタリング)において、その影響が強く発音されていることを証明している。
この主張を支持するために、一般的な$n$-modalケースへの直接拡張を施した2モーダル設定において、この相違を一貫して低減するように設計された新しい手法を導入する。
このギャップを減らすことで、従来のインスタンスワイドタスクの限界あるいは矛盾した改善しか得られないが、グループワイドタスクを著しく強化する。
これらの発見は、モダリティギャップに対する理解を再構築し、セマンティックグルーピングを必要とするタスクのパフォーマンス向上における重要な役割を浮き彫りにする可能性がある。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning [7.412307614007383]
マルチモーダル学習モデルは、共有表現空間を学習することにより、画像やテキストなどの様々なモダリティをブリッジするように設計されている。
これらのモデルはしばしばモダリティギャップを示し、異なるモダリティが共有表現空間内の異なる領域を占める。
トレーニング中にモダリティギャップを生じ、持続させる上で、不整合データペアと学習可能な温度パラメータの臨界的役割を同定する。
論文 参考訳(メタデータ) (2024-12-10T20:36:49Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP [22.076206386214565]
コントラスト言語-画像事前学習は、ゼロショット分類とクロスモーダル視覚言語タスクにおいて顕著に改善されている。
幾何学的な観点から、CLIP埋め込み空間は明らかにモダリティギャップを持つ。
本稿では,AlignCLIPが組込みのクロスモーダルアライメントにおいて顕著な拡張を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-25T15:24:02Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。