論文の概要: Perceive and Calibrate: Analyzing and Enhancing Robustness of Medical Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2512.21964v1
- Date: Fri, 26 Dec 2025 10:23:30 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:04:04.291744
- Title: Perceive and Calibrate: Analyzing and Enhancing Robustness of Medical Multi-Modal Large Language Models
- Title(参考訳): 知覚と校正:医療用マルチモーダル大言語モデルのロバスト性の分析と向上
- Authors: Dunyuan XU, Xikai Yang, Yaoqian Li, Juzheng Miao, Jinpeng Li, Pheng-Ann Heng,
- Abstract要約: 本研究は,種々の摂動が医療MLLMに与える影響を系統的に分析する。
視覚的モダリティのために,MLLMの視覚エンコーダを利用してノイズパターンを識別する摂動認識デノナイジング(PDC)を提案する。
そこで本研究では,MLLMの自己評価機能を活用し,ノイズの多いテキストを精査するセルフ・インスタンス・マルチエージェント・システム(SMS)を設計する。
- 参考スコア(独自算出の注目度): 43.46006663176283
- License:
- Abstract: Medical Multi-modal Large Language Models (MLLMs) have shown promising clinical performance. However, their sensitivity to real-world input perturbations, such as imaging artifacts and textual errors, critically undermines their clinical applicability. Systematic analysis of such noise impact on medical MLLMs remains largely unexplored. Furthermore, while several works have investigated the MLLMs' robustness in general domains, they primarily focus on text modality and rely on costly fine-tuning. They are inadequate to address the complex noise patterns and fulfill the strict safety standards in medicine. To bridge this gap, this work systematically analyzes the impact of various perturbations on medical MLLMs across both visual and textual modalities. Building on our findings, we introduce a training-free Inherent-enhanced Multi-modal Calibration (IMC) framework that leverages MLLMs' inherent denoising capabilities following the perceive-and-calibrate principle for cross-modal robustness enhancement. For the visual modality, we propose a Perturbation-aware Denoising Calibration (PDC) which leverages MLLMs' own vision encoder to identify noise patterns and perform prototype-guided feature calibration. For text denoising, we design a Self-instantiated Multi-agent System (SMS) that exploits the MLLMs' self-assessment capabilities to refine noisy text through a cooperative hierarchy of agents. We construct a benchmark containing 11 types of noise across both image and text modalities on 2 datasets. Experimental results demonstrate our method achieves the state-of-the-art performance across multiple modalities, showing potential to enhance MLLMs' robustness in real clinical scenarios.
- Abstract(参考訳): MLLM(Multi Multi-modal Large Language Models)は有望な臨床成績を示した。
しかし、画像アーティファクトやテキストエラーなどの現実世界の入力摂動に対する感度は、臨床応用性を著しく損なう。
医療用MLLMの騒音影響のシステマティック分析はほとんど未検討である。
さらに、MLLMの一般領域における堅牢性についていくつかの研究が行われてきたが、それらは主にテキストのモダリティに重点を置いており、コストのかかる微調整に依存している。
複雑なノイズパターンに対処し、医療の厳格な安全基準を満たすには不十分である。
このギャップを埋めるために、この研究は視覚とテキストの両モードの医療MLLMに対する様々な摂動の影響を体系的に分析する。
本研究の成果に基づき, MLLMの固有な認知機能を活用した多モード校正(IMC)フレームワークを, クロスモーダルロバストネス向上のための知覚・校正原理に則って導入した。
視覚的モダリティのために,MLLMの視覚エンコーダを利用してノイズパターンを識別し,プロトタイプ誘導機能校正を行う摂動認識型除音校正(PDC)を提案する。
本稿では,MLLMの自己評価機能を利用して,エージェントの協調的階層を通してノイズの多いテキストを精査する自己検証型マルチエージェントシステム(SMS)を設計する。
2つのデータセット上で、画像とテキストの両モードで11種類のノイズを含むベンチマークを構築した。
以上の結果から, MLLMのロバスト性を高める可能性が示唆された。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Analysis of Image-and-Text Uncertainty Propagation in Multimodal Large Language Models with Cardiac MR-Based Applications [10.096013178241117]
MLLM(Multimodal large language model)は、テキストや画像などのマルチモーダルソースからの情報を処理する。
個々のユニモーダルデータと潜在的な臨床応用による不確実性は、まだ完全には理解されていない。
本研究では,不確実性伝播に基づくマルチモーダル不確実性伝播モデル(MUPM)を提案する。
論文 参考訳(メタデータ) (2025-07-17T09:34:21Z) - Medical large language models are easily distracted [0.8211696054238238]
大規模言語モデル(LLM)は医学を変革する可能性を持っているが、実際の臨床シナリオには、パフォーマンスを妨げる余分な情報が含まれている。
MedDistractQAは,実世界の気晴らしをシミュレートしたUSMLEスタイルの質問を用いたベンチマークである。
論文 参考訳(メタデータ) (2025-04-01T21:34:01Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。