論文の概要: Calibrated Multimodal Representation Learning with Missing Modalities
- arxiv url: http://arxiv.org/abs/2511.12034v1
- Date: Sat, 15 Nov 2025 05:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.520531
- Title: Calibrated Multimodal Representation Learning with Missing Modalities
- Title(参考訳): モダリティの欠如を考慮した校正型マルチモーダル表現学習
- Authors: Xiaohao Liu, Xiaobo Xia, Jiaheng Wei, Shuo Yang, Xiu Su, See-Kiong Ng, Tat-Seng Chua,
- Abstract要約: マルチモーダル表現学習は、それらを統一潜在空間に整列させることにより、異なるモダリティを調和させる。
最近の研究は、従来のクロスモーダルアライメントを一般化して、強化されたマルチモーダル・シナジーを生成するが、すべてのモダリティを共通の例に含める必要がある。
我々は、アンカーシフトの観点から、この問題に関する理論的洞察を提供する。
モーダルの欠如に起因する不完全なアライメントを校正するために,マルチモーダル表現学習のためのCalMRLを提案する。
- 参考スコア(独自算出の注目度): 100.55774771852468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal representation learning harmonizes distinct modalities by aligning them into a unified latent space. Recent research generalizes traditional cross-modal alignment to produce enhanced multimodal synergy but requires all modalities to be present for a common instance, making it challenging to utilize prevalent datasets with missing modalities. We provide theoretical insights into this issue from an anchor shift perspective. Observed modalities are aligned with a local anchor that deviates from the optimal one when all modalities are present, resulting in an inevitable shift. To address this, we propose CalMRL for multimodal representation learning to calibrate incomplete alignments caused by missing modalities. Specifically, CalMRL leverages the priors and the inherent connections among modalities to model the imputation for the missing ones at the representation level. To resolve the optimization dilemma, we employ a bi-step learning method with the closed-form solution of the posterior distribution of shared latents. We validate its mitigation of anchor shift and convergence with theoretical guidance. By equipping the calibrated alignment with the existing advanced method, we offer new flexibility to absorb data with missing modalities, which is originally unattainable. Extensive experiments and comprehensive analyses demonstrate the superiority of CalMRL. Our code, model checkpoints, and evaluation raw data will be publicly available.
- Abstract(参考訳): マルチモーダル表現学習は、それらを統一潜在空間に整列させることにより、異なるモダリティを調和させる。
近年の研究では、従来のクロスモーダルアライメントを一般化して、強化されたマルチモーダル・シナジーを生成するが、すべてのモダリティを共通の例に含める必要があるため、欠落したモダリティを持つ一般的なデータセットの利用は困難である。
我々は、アンカーシフトの観点から、この問題に関する理論的洞察を提供する。
観測されたモダリティは、すべてのモダリティが存在するときに最適なアンカーから逸脱する局所アンカーと整列し、必然的なシフトをもたらす。
そこで本研究では,マルチモーダル表現学習のためのCalMRLを提案する。
具体的には、CalMRLは、モダリティ間の先行と固有の接続を利用して、表現レベルで欠落するものの計算をモデル化する。
最適化ジレンマを解決するために,共有潜伏者の後部分布の閉形式解を用いた二段階学習法を用いる。
我々は,アンカーシフトと収束の緩和を理論的ガイダンスで検証する。
キャリブレーションされたアライメントを既存の先進的手法と組み合わせることで、本来は達成不可能なモダリティの欠如したデータを吸収する新しい柔軟性を提供する。
大規模な実験と包括的な分析は、CalMRLの優位性を示している。
コード、モデルチェックポイント、および生データの評価が公開されます。
関連論文リスト
- A Flow Model with Low-Rank Transformers for Incomplete Multimodal Survival Analysis [36.102030480314816]
本稿では,低ランクトランスフォーマーとフローベース生成モデルを組み合わせた,堅牢かつ柔軟なマルチモーダルサバイバル予測手法を提案する。
提案手法は, 完全モダリティ条件下での最先端性能を実現するだけでなく, 不完全モダリティシナリオ下での堅牢かつ優れた精度も維持する。
論文 参考訳(メタデータ) (2025-10-22T02:27:05Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。
本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。
本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文 参考訳(メタデータ) (2024-06-04T06:07:24Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。