論文の概要: Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling
- arxiv url: http://arxiv.org/abs/2602.16979v1
- Date: Thu, 19 Feb 2026 00:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.535619
- Title: Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling
- Title(参考訳): 教師付き潜時変動モデリングによるモーダリティの予測的影響のキャラクタリゼーション
- Authors: Divyam Madaan, Sumit Chopra, Kyunghyun Cho,
- Abstract要約: PRIMOは、欠落したモダリティの予測的影響を定量化する教師付き潜在変数計算モデルである。
PRIMOは、モダリティが完全か部分的であるかにかかわらず、すべての利用可能なトレーニング例の使用を可能にする。
我々は,合成XORデータセット,Audio-Vision MNIST,MIMIC-IIIを用いてPRIMOを評価し,死亡率とICD-9の予測を行った。
- 参考スコア(独自算出の注目度): 43.81891375838308
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the recent success of Multimodal Large Language Models (MLLMs), existing approaches predominantly assume the availability of multiple modalities during training and inference. In practice, multimodal data is often incomplete because modalities may be missing, collected asynchronously, or available only for a subset of examples. In this work, we propose PRIMO, a supervised latent-variable imputation model that quantifies the predictive impact of any missing modality within the multimodal learning setting. PRIMO enables the use of all available training examples, whether modalities are complete or partial. Specifically, it models the missing modality through a latent variable that captures its relationship with the observed modality in the context of prediction. During inference, we draw many samples from the learned distribution over the missing modality to both obtain the marginal predictive distribution (for the purpose of prediction) and analyze the impact of the missing modalities on the prediction for each instance. We evaluate PRIMO on a synthetic XOR dataset, Audio-Vision MNIST, and MIMIC-III for mortality and ICD-9 prediction. Across all datasets, PRIMO obtains performance comparable to unimodal baselines when a modality is fully missing and to multimodal baselines when all modalities are available. PRIMO quantifies the predictive impact of a modality at the instance level using a variance-based metric computed from predictions across latent completions. We visually demonstrate how varying completions of the missing modality result in a set of plausible labels.
- Abstract(参考訳): 近年のMLLM(Multimodal Large Language Models)の成功にもかかわらず、既存のアプローチはトレーニングや推論において、複数のモダリティが利用できることを前提としている。
実際には、モダリティが欠落したり、非同期に収集されたり、サンプルのサブセットでしか利用できないため、マルチモーダルデータは不完全であることが多い。
本研究では,マルチモーダル学習環境におけるモダリティの予測的影響を定量化する,教師付き潜在変数計算モデルであるPRIMOを提案する。
PRIMOは、モダリティが完全か部分的であるかにかかわらず、すべての利用可能なトレーニング例の使用を可能にする。
具体的には、予測の文脈で観測されたモダリティとの関係をとらえる潜在変数を通して、欠落したモダリティをモデル化する。
推論中,学習した分布から得られた多くのサンプルを抽出し,(予測の目的のために)余分な予測分布を得るとともに,欠落したモダリティが各インスタンスの予測に与える影響を解析する。
我々は,合成XORデータセット,Audio-Vision MNIST,MIMIC-IIIを用いてPRIMOを評価し,死亡率とICD-9の予測を行った。
すべてのデータセットにおいて、PRIMOは、モダリティが完全に欠落している場合のアンモダルベースラインと、すべてのモダリティが利用できる場合のマルチモーダルベースラインに匹敵するパフォーマンスを得る。
PRIMOは、潜伏完了の予測から計算された分散に基づく計量を用いて、インスタンスレベルでのモダリティの予測的影響を定量化する。
欠落したモダリティの様々な完了が、可塑性ラベルの集合にどのように影響するかを視覚的に示す。
関連論文リスト
- Are you SURE? Enhancing Multimodal Pretraining with Missing Modalities through Uncertainty Estimation [12.459901557580052]
我々は、遅延空間再構成と不確実性推定を導入して、事前訓練されたマルチモーダルモデルの能力を拡張した新しいフレームワークSUREを提案する。
SuREは、不完全なデータが存在する場合でも、常に最先端のパフォーマンスを達成し、堅牢な予測を確実にすることを示す。
論文 参考訳(メタデータ) (2025-04-18T05:07:20Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - It's All in the Mix: Wasserstein Classification and Regression with Mixed Features [2.2685251390114565]
我々は、離散的特徴の存在を忠実に説明できる分布的に堅牢な予測モデルを開発し、分析する。
我々のモデルは、離散的特徴の存在に非依存な既存手法を著しく上回り得ることを実証する。
論文 参考訳(メタデータ) (2023-12-19T15:15:52Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。