論文の概要: Towards Uniformity and Alignment for Multimodal Representation Learning
- arxiv url: http://arxiv.org/abs/2602.09507v1
- Date: Tue, 10 Feb 2026 08:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.439495
- Title: Towards Uniformity and Alignment for Multimodal Representation Learning
- Title(参考訳): マルチモーダル表現学習のための一様性とアライメントを目指して
- Authors: Wenzhe Yin, Pan Zhou, Zehao Xiao, Jie Liu, Shujian Yu, Jan-Jakob Sonke, Efstratios Gavves,
- Abstract要約: マルチモーダル体制における2つの対立は、モダリティの数が増えるにつれて悪化する。
マルチモーダル表現に対するアライメントと均一性の原理的分離を提案する。
次に,本手法が複数モード分布上の大域的Hlder分散の効率的なプロキシとして機能することを理論的に保証する。
- 参考スコア(独自算出の注目度): 66.87764574237532
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal representation learning aims to construct a shared embedding space in which heterogeneous modalities are semantically aligned. Despite strong empirical results, InfoNCE-based objectives introduce inherent conflicts that yield distribution gaps across modalities. In this work, we identify two conflicts in the multimodal regime, both exacerbated as the number of modalities increases: (i) an alignment-uniformity conflict, whereby the repulsion of uniformity undermines pairwise alignment, and (ii) an intra-alignment conflict, where aligning multiple modalities induces competing alignment directions. To address these issues, we propose a principled decoupling of alignment and uniformity for multimodal representations, providing a conflict-free recipe for multimodal learning that simultaneously supports discriminative and generative use cases without task-specific modules. We then provide a theoretical guarantee that our method acts as an efficient proxy for a global Hölder divergence over multiple modality distributions, and thus reduces the distribution gap among modalities. Extensive experiments on retrieval and UnCLIP-style generation demonstrate consistent gains.
- Abstract(参考訳): マルチモーダル表現学習は、異質なモダリティが意味的に整合した共有埋め込み空間を構築することを目的としている。
InfoNCEをベースとした目的は、強い経験的結果にもかかわらず、モダリティ間の分散ギャップをもたらす固有の矛盾を導入している。
この研究では、モダリティの数が増えるにつれてさらに悪化するマルチモーダル体制における2つの対立を識別する。
一 整合・整合の対立で、一律の反発が一対の整合を損なうこと。
(i)複数のモードの整列が競合するアライメント方向を誘導するアライメント内衝突。
これらの課題に対処するために,タスク固有のモジュールを使わずに識別的および生成的ユースケースを同時にサポートするマルチモーダル学習のためのコンフリクトフリーレシピを提供する,多モーダル表現のアライメントと統一性の原則的分離を提案する。
次に,本手法が多重モード分布上の大域的ヘルダー発散の効率的なプロキシとして機能し,モダリティ間の分布ギャップを小さくする理論的保証を与える。
検索とUnCLIPスタイルの生成に関する大規模な実験は、一貫した利得を示している。
関連論文リスト
- DCG ReID: Disentangling Collaboration and Guidance Fusion Representations for Multi-modal Vehicle Re-Identification [26.52384456327148]
マルチモーダル車両リID(DCG-ReID)におけるディスタングル協調と誘導融合表現を提案する。
具体的には、相互干渉を伴わない不均一な品質分散モーダルデータを切り離すために、まず動的信頼に基づくDCDW(Disentangling Weighting)機構を設計する。
筆者らは,(1)品質分布の均衡化,(CFM)コラボレーション・フュージョン・モジュール(CFM)が共有識別情報の収集とクラス内整合性向上のために相互にコンセンサス特性をマイニングすること,(2)不均衡分布の調整,(GFM)誘導融合モジュール(GFM)が支配的モダリティの強化のために偏差増幅を実装していること,の2つのシナリオ特異的融合戦略を開発した。
論文 参考訳(メタデータ) (2026-01-06T11:09:19Z) - Dual-Stream Cross-Modal Representation Learning via Residual Semantic Decorrelation [5.272868130772015]
クロスモーダル表現は、しばしばモダリティ支配、冗長な情報結合、急激なクロスモーダル相関に悩まされる。
本稿では,Dual-Stream Residual Semantic Deorrelation Network (DSRSD-Net)を提案する。
論文 参考訳(メタデータ) (2025-12-08T14:01:16Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [18.066105354135058]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。
CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View [35.389116270077324]
マルチモーダル融合は様々なモダリティの境界を突破し、既に顕著な性能を達成している。
多くの専門分野において、トレーニングに十分なアライメントデータを得るのに苦労している。
本稿では,CLIPに基づく新しい手法であるSet-CLIPを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。