論文の概要: Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations
- arxiv url: http://arxiv.org/abs/2602.14983v1
- Date: Mon, 16 Feb 2026 18:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.573748
- Title: Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations
- Title(参考訳): 構造表現のための非対称マスキングを用いた直交型マルチモーダルコントラスト学習
- Authors: Carolin Cissee, Raneen Younis, Zahra Ahmadi,
- Abstract要約: マルチモーダル学習は異種情報源からの情報を統合することを目的としており、そこでは信号はモダリティ間で共有され、個々のモダリティに特有であり、相互作用を通してのみ現れる。
自己教師型マルチモーダルコントラスト学習は目覚ましい進歩を遂げてきたが、既存の手法のほとんどは冗長なクロスモーダル信号を捉え、しばしばモダリティ固有の(一意的な)情報や相互作用駆動の(シネルジスティックな)情報を無視している。
最近の拡張は、この視点を広げるが、それらは相乗的相互作用を明示的にモデル化したり、異なる情報コンポーネントを絡み合った方法で学習することに失敗し、不完全な表現と潜在的な情報漏洩につながる。
基本的枠組みである textbfCOrAL を導入する。
- 参考スコア(独自算出の注目度): 4.67724003380452
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal learning seeks to integrate information from heterogeneous sources, where signals may be shared across modalities, specific to individual modalities, or emerge only through their interaction. While self-supervised multimodal contrastive learning has achieved remarkable progress, most existing methods predominantly capture redundant cross-modal signals, often neglecting modality-specific (unique) and interaction-driven (synergistic) information. Recent extensions broaden this perspective, yet they either fail to explicitly model synergistic interactions or learn different information components in an entangled manner, leading to incomplete representations and potential information leakage. We introduce \textbf{COrAL}, a principled framework that explicitly and simultaneously preserves redundant, unique, and synergistic information within multimodal representations. COrAL employs a dual-path architecture with orthogonality constraints to disentangle shared and modality-specific features, ensuring a clean separation of information components. To promote synergy modeling, we introduce asymmetric masking with complementary view-specific patterns, compelling the model to infer cross-modal dependencies rather than rely solely on redundant cues. Extensive experiments on synthetic benchmarks and diverse MultiBench datasets demonstrate that COrAL consistently matches or outperforms state-of-the-art methods while exhibiting low performance variance across runs. These results indicate that explicitly modeling the full spectrum of multimodal information yields more stable, reliable, and comprehensive embeddings.
- Abstract(参考訳): マルチモーダル学習は異種情報源からの情報を統合することを目的としており、そこでは信号はモダリティ間で共有され、個々のモダリティに特有であり、相互作用を通してのみ現れる。
自己教師型マルチモーダルコントラスト学習は目覚ましい進歩を遂げてきたが、既存の手法のほとんどは冗長なクロスモーダル信号を捉え、しばしばモダリティ固有の(一意的な)情報や相互作用駆動(シネルジスティック)情報を無視している。
最近の拡張は、この視点を広げるが、それらは相乗的相互作用を明示的にモデル化したり、異なる情報コンポーネントを絡み合った方法で学習することに失敗し、不完全な表現と潜在的な情報漏洩につながる。
マルチモーダル表現内で冗長でユニークな,シナジスティックな情報を明示的にかつ同時に保存する,原則付きフレームワークである。
COrALは、直交制約のあるデュアルパスアーキテクチャを使用して、共有とモダリティ固有の特徴を分離し、情報コンポーネントのクリーンな分離を保証する。
相乗的モデリングを促進するために、補完的なビュー固有パターンを用いた非対称マスキングを導入し、冗長なキューのみに依存するのではなく、相互依存を推論するようにモデルを説得する。
総合的なベンチマークと多種多様なMultiBenchデータセットに関する実験は、COrALがラン毎に低いパフォーマンスのばらつきを示しながら、最先端の手法と一貫して一致または性能を向上することを示した。
これらの結果は、マルチモーダル情報の完全なスペクトルを明示的にモデル化することで、より安定で信頼性があり、包括的な埋め込みが得られることを示している。
関連論文リスト
- Cross-Modal Attention Network with Dual Graph Learning in Multimodal Recommendation [12.802844514133255]
二重グラフ埋め込み(CRANE)を用いたクロスモーダル再帰注意ネットワーク
我々は,共同潜在空間における相互相関に基づくモダリティ特徴を反復的に洗練するコア再帰的クロスモーダルアテンション(RCA)機構を設計する。
対称型マルチモーダル学習では,対話した項目の特徴を集約することで,ユーザのマルチモーダルプロファイルを明示的に構築する。
論文 参考訳(メタデータ) (2026-01-16T10:09:39Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。
非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T02:12:26Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。
これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文 参考訳(メタデータ) (2024-03-08T09:16:47Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。