論文の概要: Cross-Modal Alignment via Variational Copula Modelling
- arxiv url: http://arxiv.org/abs/2511.03196v1
- Date: Wed, 05 Nov 2025 05:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.337395
- Title: Cross-Modal Alignment via Variational Copula Modelling
- Title(参考訳): 変分コピュラモデルによるクロスモーダルアライメント
- Authors: Feng Wu, Tsai Hor Chan, Fuying Wang, Guosheng Yin, Lequan Yu,
- Abstract要約: 複数のモーダルから様々な情報を集約するマルチモーダル学習手法を開発することが不可欠である。
既存の方法は主に連結やクロネッカー積に依存し、モジュラリティ間の相互作用構造を単純化する。
そこで本研究では,様々なモーダルの連成分布の学習に焦点を当てた,コプラ駆動型マルチモーダル学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.25504956780864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various data modalities are common in real-world applications (e.g., electronic health records, medical images and clinical notes in healthcare). It is essential to develop multimodal learning methods to aggregate various information from multiple modalities. The main challenge is how to appropriately align and fuse the representations of different modalities into a joint distribution. Existing methods mainly rely on concatenation or the Kronecker product, oversimplifying the interaction structure between modalities and indicating a need to model more complex interactions. Additionally, the joint distribution of latent representations with higher-order interactions is underexplored. Copula is a powerful statistical structure for modelling the interactions among variables, as it naturally bridges the joint distribution and marginal distributions of multiple variables. We propose a novel copula-driven multimodal learning framework, which focuses on learning the joint distribution of various modalities to capture the complex interactions among them. The key idea is to interpret the copula model as a tool to align the marginal distributions of the modalities efficiently. By assuming a Gaussian mixture distribution for each modality and a copula model on the joint distribution, our model can generate accurate representations for missing modalities. Extensive experiments on public MIMIC datasets demonstrate the superior performance of our model over other competitors. The code is available at https://github.com/HKU-MedAI/CMCM.
- Abstract(参考訳): 様々なデータモダリティは、現実世界の応用(例えば、電子健康記録、医療画像、医療における臨床ノート)で一般的である。
複数のモーダルから様々な情報を集約するマルチモーダル学習手法を開発することが不可欠である。
主な課題は、異なるモダリティの表現を適切に整合させ、融合させることである。
既存の方法は主に連結やクロネッカー積に依存し、モダリティ間の相互作用構造を単純化し、より複雑な相互作用をモデル化する必要があることを示す。
さらに、高次相互作用を持つ潜在表現の結合分布は、未探索である。
コプラは変数間の相互作用をモデル化するための強力な統計構造であり、複数の変数の結合分布と境界分布を自然に橋渡しする。
複雑な相互作用を捉えるために,様々なモダリティの連成分布を学習することに焦点を当てた,新しいコプラ駆動型マルチモーダル学習フレームワークを提案する。
鍵となる考え方は、コプラモデルをモダリティの限界分布を効率的に整合させるツールとして解釈することである。
各モードに対するガウス混合分布と関節分布上のコプラモデルとを仮定することにより、我々のモデルは欠落したモダリティに対する正確な表現を生成することができる。
パブリックMIMICデータセットの大規模な実験は、我々のモデルが他の競合製品よりも優れていることを示す。
コードはhttps://github.com/HKU-MedAI/CMCMで入手できる。
関連論文リスト
- Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - Bridging the inference gap in Mutimodal Variational Autoencoders [6.246098300155483]
マルチモーダル変分オートエンコーダは、観測されたモダリティから観測されていないモダリティを生成するための多目的でスケーラブルな方法を提供する。
エキスパートの混合集合を用いた最近のモデルは、複雑なデータセットにおける生成品質を制限する理論的に基礎的な制限に悩まされている。
本稿では,混合アグリゲーションを導入することなく,結合分布と条件分布の両方を学習できる新しい解釈可能なモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T10:43:55Z) - Measuring Cross-Modal Interactions in Multimodal Models [9.862551438475666]
既存のAIメソッドは、複数のデータソースの複合的な影響を理解するために不可欠な、モーダル間インタラクションをキャプチャできない。
本稿では,既存のアプローチの限界に対処する相互モーダルインタラクションスコアであるInterSHAPを紹介する。
我々は,InterSHAPが相互モーダル相互作用の存在を正確に測定し,複数のモーダルを扱えることを示す。
論文 参考訳(メタデータ) (2024-12-20T12:11:20Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Learning more expressive joint distributions in multimodal variational
methods [0.17188280334580194]
正規化フローを用いたマルチモーダル変分法の表現能力を向上させる手法を提案する。
このモデルは,様々なコンピュータビジョンタスクの変動推論に基づいて,最先端のマルチモーダル手法を改善することを実証する。
また, より強力な近似関節分布の学習により, 生成した試料の品質が向上することを示した。
論文 参考訳(メタデータ) (2020-09-08T11:45:27Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。