論文の概要: The More, the Merrier: Contrastive Fusion for Higher-Order Multimodal Alignment
- arxiv url: http://arxiv.org/abs/2511.21331v1
- Date: Wed, 26 Nov 2025 12:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.087465
- Title: The More, the Merrier: Contrastive Fusion for Higher-Order Multimodal Alignment
- Title(参考訳): メリット:高次マルチモーダルアライメントのためのコントラスト融合
- Authors: Stefanos Koutoupis, Michaela Areti Zervou, Konstantinos Kontras, Maarten De Vos, Panagiotis Tsakalides, Grigorios Tsagatakis,
- Abstract要約: Contrastive Fusion (ConFu) は、個々のモダリティとそれらの融合を統一された表現空間に埋め込むフレームワークである。
合成および実世界のマルチモーダルベンチマーク上でのConFuの評価を行い、クロスモーダルの相補性を活用し、高次依存関係を捕捉し、マルチモーダルの複雑さを増大させる能力を評価する。
- 参考スコア(独自算出の注目度): 9.00329317378599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning joint representations across multiple modalities remains a central challenge in multimodal machine learning. Prevailing approaches predominantly operate in pairwise settings, aligning two modalities at a time. While some recent methods aim to capture higher-order interactions among multiple modalities, they often overlook or insufficiently preserve pairwise relationships, limiting their effectiveness on single-modality tasks. In this work, we introduce Contrastive Fusion (ConFu), a framework that jointly embeds both individual modalities and their fused combinations into a unified representation space, where modalities and their fused counterparts are aligned. ConFu extends traditional pairwise contrastive objectives with an additional fused-modality contrastive term, encouraging the joint embedding of modality pairs with a third modality. This formulation enables ConFu to capture higher-order dependencies, such as XOR-like relationships, that cannot be recovered through pairwise alignment alone, while still maintaining strong pairwise correspondence. We evaluate ConFu on synthetic and real-world multimodal benchmarks, assessing its ability to exploit cross-modal complementarity, capture higher-order dependencies, and scale with increasing multimodal complexity. Across these settings, ConFu demonstrates competitive performance on retrieval and classification tasks, while supporting unified one-to-one and two-to-one retrieval within a single contrastive framework.
- Abstract(参考訳): 複数のモードにわたる共同表現の学習は、マルチモーダル機械学習において依然として中心的な課題である。
一般的なアプローチは、主にペアワイズな設定で運用され、同時に2つのモダリティを整列させる。
最近の手法では、複数のモーダル間の高次相互作用を捉えることを目的としているが、それらはしばしばペアワイズ関係を見落としたり、不十分に保存し、単一のモダリティタスクにおけるそれらの効果を制限する。
本研究では,それぞれのモダリティと融合した組み合わせを統合表現空間に共同で組み込むフレームワークであるContrastive Fusion(ConFu)を紹介する。
コンフーは、従来の対対の対照的な目的を、追加の融合-モダリティの対照的な項で拡張し、第3のモダリティを持つモダリティ対の合同埋め込みを奨励する。
この定式化により、ConFuは、強力なペアワイズ対応を維持しながら、ペアワイズ単独では回復できないXORのような高階依存関係をキャプチャできる。
合成および実世界のマルチモーダルベンチマーク上でのConFuの評価を行い、クロスモーダルの相補性を活用し、高次依存関係を捕捉し、マルチモーダルの複雑さを増大させる能力を評価する。
これらの設定全体で、ConFuは検索と分類タスクの競合性能を示し、単一のコントラストフレームワーク内で一対一と二対一の検索をサポートする。
関連論文リスト
- Collaboration of Fusion and Independence: Hypercomplex-driven Robust Multi-Modal Knowledge Graph Completion [16.99012641907491]
マルチモーダル知識グラフ補完(MMKGC)は、マルチモーダル知識グラフ(MMKG)における行方不明事実の発見を目的とする。
既存のMMKGCメソッドは、融合ベースとアンサンブルベースの2つのマルチモーダルパラダイムに従っている。
本稿では, 融合および独立なモダリティ表現の共存と協調を実現するMMKGC手法 M-Hyper を提案する。
論文 参考訳(メタデータ) (2025-09-28T07:55:01Z) - Multimodal Representation Learning Conditioned on Semantic Relations [10.999120598129126]
マルチモーダル表現学習はCLIPのような対照的なモデルで急速に進歩している。
本稿では,自然言語関係記述に基づくマルチモーダル表現学習フレームワークであるRelation-Conditioned Multimodal Learning RCMLを提案する。
提案手法では,意味的関係に関連付けられた多対多の学習ペアを構築し,関係誘導型クロスアテンション機構を導入する。
論文 参考訳(メタデータ) (2025-08-24T19:36:18Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Rethinking Trajectory Prediction via "Team Game" [118.59480535826094]
本稿では,対話型グループコンセンサスの概念を明示的に導入した,マルチエージェント軌道予測の新しい定式化について述べる。
チームスポーツと歩行者の2つのマルチエージェント設定において,提案手法は既存手法と比較して常に優れた性能を達成している。
論文 参考訳(メタデータ) (2022-10-17T07:16:44Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。