論文の概要: Analysis of Image-and-Text Uncertainty Propagation in Multimodal Large Language Models with Cardiac MR-Based Applications
- arxiv url: http://arxiv.org/abs/2507.12945v1
- Date: Thu, 17 Jul 2025 09:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.434005
- Title: Analysis of Image-and-Text Uncertainty Propagation in Multimodal Large Language Models with Cardiac MR-Based Applications
- Title(参考訳): 心臓MRIを用いた多モーダル大言語モデルにおける画像とテキストの不確実性伝播の解析
- Authors: Yucheng Tang, Yunguan Fu, Weixi Yi, Yipei Wang, Daniel C. Alexander, Rhodri Davies, Yipeng Hu,
- Abstract要約: MLLM(Multimodal large language model)は、テキストや画像などのマルチモーダルソースからの情報を処理する。
個々のユニモーダルデータと潜在的な臨床応用による不確実性は、まだ完全には理解されていない。
本研究では,不確実性伝播に基づくマルチモーダル不確実性伝播モデル(MUPM)を提案する。
- 参考スコア(独自算出の注目度): 10.096013178241117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) can process and integrate information from multimodality sources, such as text and images. However, interrelationship among input modalities, uncertainties due to individual uni-modal data and potential clinical applications following such an uncertainty decomposition are yet fully understood in the context of large-scale MLLMs. In this work, we propose a multimodal uncertainty propagation model (MUPM) based on uncertainty propagation, to characterise the relationship among the uncertainties arising from image-only, text-only, and joint image-text variations in MLLM inputs. Using real clinical data consisting of cardiac MR scans and digital health records, we describe that MUPMs can be optimised robustly with a few samples. We then show that the fitted MUPMs are generalisable across different input data distributions and, perhaps surprisingly, across different downstream tasks. Such a transferability may be explained by the shared pretraining, comparatively light MLLM fine-tuning, along with the low-dimensional nature of the MUPMs. More importantly, this learned transferability, quantifying the relationship between these uncertainties, led to direct clinical applications in which uncertainties may be estimated and thus analysed robustly for varying data or even a novel set of cardiac disease prediction tasks. In addition, we show experimentally the efficiency in multimodal data required for estimating the overall uncertainty and its ability to identify redundant factors, both of which are considered practical yet clinically useful applications with the proposed MUPMs. Codes are available at https://github.com/yucheng722/MUPM.
- Abstract(参考訳): MLLM(Multimodal large language model)は、テキストや画像などのマルチモーダルソースからの情報を処理する。
しかし、入力モダリティ間の相互関係、個々のユニモーダルデータによる不確実性、そしてそのような不確実性分解に続く潜在的な臨床応用は、大規模なMLLMの文脈ではまだ完全に理解されていない。
本研究では,不確実性伝播に基づくマルチモーダル不確実性伝播モデル(MUPM)を提案する。
心臓MRスキャンとデジタル健康記録からなる実際の臨床データを用いて、MUPMは少数のサンプルで頑健に最適化可能であることを述べる。
次に、適合したMUPMが、異なる入力データ分布にまたがって一般化可能であること、そして、おそらくは、異なる下流タスクにまたがって一般化可能であることを示す。
このような伝達性は、MUPMの低次元の性質とともに、共有事前訓練(比較的軽いMLLM微調整)によって説明できる。
さらに重要なことは、これらの不確実性の間の関係を定量化するこの学習された伝達性は、不確実性を推定し、様々なデータや新しい心臓疾患予測タスクに対して堅牢に分析する直接的な臨床応用につながったことである。
さらに,本論文では,本手法が提案するMUPMを用いた実用的かつ臨床的に有用であると考えられる,総合的不確実性の推定に必要なマルチモーダルデータの効率と,冗長因子の同定能力について実験的に検討した。
コードはhttps://github.com/yucheng722/MUPMで公開されている。
関連論文リスト
- An Information-Theoretic Perspective on Multi-LLM Uncertainty Estimation [7.018119896897734]
大規模言語モデル(LLM)は入力間で矛盾なく振る舞うことが多く、不確実性を示し、その定量化の必要性を高レベルな設定で動機付けている。
本稿では,MUSE(Multi-LLM Uncertainty via Subset Ensembles)を提案する。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - Towards Scalable and Robust White Matter Lesion Localization via Multimodal Deep Learning [2.0749231618270803]
ホワイトマター・ハイパーインテンシティ(White matter hyperintensities, WMH)は、小血管疾患や神経変性の放射線マーカーであり、正確なセグメンテーションと局所化が診断とモニタリングに不可欠である。
単一モードのMRI入力とマルチモードのMRI入力を用いて,WM病変分割と局所化の深層学習フレームワークを提案する。
本研究は, 高精度かつ堅牢なWMH解析のためのマルチモーダルフュージョンの有用性と, 統合予測のためのジョイントモデリングの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-06-27T09:39:26Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Multimodal Clinical Trial Outcome Prediction with Large Language Models [28.95412904299012]
臨床試験の結果を予測するために, LIFTED(Multimodal Mixed-of-Experts)アプローチを提案する。
LIFTEDは、異なるモダリティデータを自然言語記述に変換することで統一する。
そして、LIFTEDは統合ノイズ耐性エンコーダを構築し、モーダル固有の言語記述から情報を抽出する。
論文 参考訳(メタデータ) (2024-02-09T16:18:38Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z) - Meta-modal Information Flow: A Method for Capturing Multimodal Modular
Disconnectivity in Schizophrenia [11.100316178148994]
統合失調症(SZ)における解離と機能不全の仮説に対処するための多モードデータを活用する手法を提案する。
マルチモーダルデータセットを通して精神疾患に関連するリンクを特定するために,GGMに適用可能なモジュール性に基づく手法を提案する。
シミュレーションと実データにより,本手法は単一モダリティに焦点をあてて欠落する疾患関連ネットワーク破壊に関する重要な情報を明らかにする。
論文 参考訳(メタデータ) (2020-01-06T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。