論文の概要: CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2509.23379v1
- Date: Sat, 27 Sep 2025 16:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.1951
- Title: CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding
- Title(参考訳): CCD:臨床コントラスト復号による放射線MLLMの幻覚の軽減
- Authors: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は近年,視覚認識と自然言語理解を統合することで,放射線学において顕著な進歩を遂げている。
医学的幻覚と呼ばれる臨床的に欠かせない記述をしばしば生成し、正確さと画像的アウトプットを要求される医学的応用に重大なリスクをもたらす。
我々は,タスク固有の放射線学の専門家モデルから構造化された臨床信号を統合する,訓練不要で検索不要な推論フレームワークであるCCDを紹介した。
- 参考スコア(独自算出の注目度): 23.353712899156417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have recently achieved remarkable progress in radiology by integrating visual perception with natural language understanding. However, they often generate clinically unsupported descriptions, known as medical hallucinations, which pose serious risks in medical applications that demand accuracy and image-grounded outputs. Through empirical analysis, we find that prompt-induced hallucinations remain prevalent in radiology MLLMs, largely due to over-sensitivity to clinical sections. To address this, we introduce Clinical Contrastive Cecoding (CCD), a training-free and retrieval-free inference framework that integrates structured clinical signals from task-specific radiology expert models. CCD introduces a dual-stage contrastive mechanism to refine token-level logits during generation, thereby enhancing clinical fidelity without modifying the base MLLM. Experiments on three datasets and multiple models demonstrate that CCD consistently improves overall performance on radiology report generation (RRG). On the MIMIC-CXR dataset, it yields up to a 17% improvement in RadGraph-F1 when applied to state-of-the-art RRG models. Our approach provides a lightweight and generalisable solution for mitigating medical hallucinations, effectively bridging expert models and MLLMs in radiology.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は近年,視覚認識と自然言語理解を統合することで,放射線学において顕著な進歩を遂げている。
しかし、医学的幻覚と呼ばれる臨床的に欠かせない記述をしばしば生成し、正確さと画像的アウトプットを要求される医学的応用に重大なリスクをもたらす。
経験的分析により, 放射線学のMLLMでは, 主に臨床部位に対する過敏性により, 急激な幻覚が持続していることが判明した。
そこで本研究では,CCD(Citical Contrastive Cecoding)について紹介する。CCD(Citical Contrastive Cecoding)は,タスク固有の放射線学エキスパートモデルから構築された臨床信号を統合する,トレーニング不要で検索不要な推論フレームワークである。
CCDは、生成中にトークンレベルのロジットを洗練させる二重段階のコントラスト機構を導入し、基本MLLMを変更することなく臨床忠実度を向上させる。
3つのデータセットと複数のモデルの実験により、CCDはラジオロジーレポート生成(RRG)の全体的な性能を一貫して改善することを示した。
MIMIC-CXRデータセットでは、最先端のRRGモデルに適用すると、RadGraph-F1が最大17%改善される。
本手法は,放射線学の専門的モデルとMLLMを効果的にブリッジし,医療幻覚を緩和するための軽量で汎用的なソリューションを提供する。
関連論文リスト
- AMRG: Extend Vision Language Models for Automatic Mammography Report Generation [4.366802575084445]
マンモグラフィーレポート生成は、医療AIにおいて重要で未発見の課題である。
マンモグラフィーレポートを生成するための最初のエンドツーエンドフレームワークであるAMRGを紹介する。
DMIDを用いた高分解能マンモグラフィーと診断レポートの公開データセットであるAMRGのトレーニングと評価を行った。
論文 参考訳(メタデータ) (2025-08-12T06:37:41Z) - Revolutionizing Radiology Workflow with Factual and Efficient CXR Report Generation [0.0]
本稿では,胸部X線自動生成に特化して開発されたLLM中心の基盤モデルであるCXR-PathFinderを紹介する。
本稿では,専門的な臨床フィードバックを相手の学習フレームワークに統合する,ユニークな訓練パラダイムであるCGAFTを提案する。
我々の実験は、CXR-PathFinderが、様々なメトリクスで既存の最先端の医療ビジョン言語モデルを大幅に上回っていることを実証した。
論文 参考訳(メタデータ) (2025-06-01T18:47:49Z) - MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation [4.760537994346813]
医用画像報告は、放射線画像から構造化された臨床記述を生成することを目的としている。
そこで我々は, ゲート型クロスアライメント融合モデルであるMicarVLMoEを提案する。
我々は、MIRをCTスキャン、網膜イメージング、MRIスキャン、Grog pathology imageに拡張し、最先端の結果を報告する。
論文 参考訳(メタデータ) (2025-04-29T01:26:02Z) - TRRG: Towards Truthful Radiology Report Generation With Cross-modal Disease Clue Enhanced Large Language Model [22.305034251561835]
そこで我々は,大規模言語モデルへのクロスモーダル病ヒントインジェクションの段階的訓練に基づく,真正な放射線学レポート生成フレームワークTRRGを提案する。
提案フレームワークは,IU-XrayやMIMIC-CXRなどのデータセットを用いた放射線学レポート生成において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-08-22T05:52:27Z) - Large Model driven Radiology Report Generation with Clinical Quality
Reinforcement Learning [16.849933628738277]
放射線学報告生成 (RRG) は, 放射線技師の作業量削減の可能性から注目されている。
本稿では,新しいRRG法である textbfLM-RRG について紹介する。
MIMIC-CXRおよびIU-Xrayデータセットを用いた実験により,本手法が技術状況よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-11T13:47:11Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。