論文の概要: CWCD: Category-Wise Contrastive Decoding for Structured Medical Report Generation
- arxiv url: http://arxiv.org/abs/2604.10410v2
- Date: Wed, 15 Apr 2026 21:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.143289
- Title: CWCD: Category-Wise Contrastive Decoding for Structured Medical Report Generation
- Title(参考訳): CWCD:構造化医療レポート生成のためのカテゴリワイズコントラストデコーディング
- Authors: Shantam Srivastava, Mahesh Bhosale, David Doermann, Mingchen Gao,
- Abstract要約: Category-Wise Contrastive Decoding (CWCD)は、構造化ラジオロジーレポート生成(SRRG)を強化するために設計された、新しくモジュール化されたフレームワークである。
CWCDは、臨床効果と自然言語生成の指標の両方において、ベースライン法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 5.6071155906499115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpreting chest X-rays is inherently challenging due to the overlap between anatomical structures and the subtle presentation of many clinically significant pathologies, making accurate diagnosis time-consuming even for experienced radiologists. Recent radiology-focused foundation models, such as LLaVA-Rad and Maira-2, have positioned multi-modal large language models (MLLMs) at the forefront of automated radiology report generation (RRG). However, despite these advances, current foundation models generate reports in a single forward pass. This decoding strategy diminishes attention to visual tokens and increases reliance on language priors as generation proceeds, which in turn introduces spurious pathology co-occurrences in the generated reports. To mitigate these limitations, we propose Category-Wise Contrastive Decoding (CWCD), a novel and modular framework designed to enhance structured radiology report generation (SRRG). Our approach introduces category-specific parameterization and generates category-wise reports by contrasting normal X-rays with masked X-rays using category-specific visual prompts. Experimental results demonstrate that CWCD consistently outperforms baseline methods across both clinical efficacy and natural language generation metrics. An ablation study further elucidates the contribution of each architectural component to overall performance.
- Abstract(参考訳): 胸部X線を解釈することは、解剖学的構造と多くの臨床的に重要な病態の微妙な提示の重複により本質的に困難であり、経験豊富な放射線医でも正確な診断に時間がかかる。
LLaVA-RadやMaira-2のような近年の放射線学に焦点を当てた基礎モデルは、自動放射線学レポート生成(RRG)の最前線にマルチモーダル大言語モデル(MLLM)を置いている。
しかし、これらの進歩にもかかわらず、現在の基礎モデルは単一の前方通過でレポートを生成する。
このデコード戦略は、生成が進むにつれて、視覚的トークンへの注意を減らし、言語先行への依存を高める。
これらの制約を緩和するため,我々は,構造化ラジオロジーレポート生成(SRRG)の高度化を目的とした,新しいモジュラー・フレームワークであるCWCD(Calegory-Wise Contrastive Decoding)を提案する。
提案手法は, カテゴリー別パラメータ化を導入し, カテゴリー別ビジュアルプロンプトを用いて, 通常のX線とマスク付きX線を対比してカテゴリ別レポートを生成する。
実験結果から,CWCDは臨床効果と自然言語生成の指標の両面で,ベースライン法を一貫して上回っていることが示された。
アブレーション調査により、全体的なパフォーマンスに対する各アーキテクチャコンポーネントの貢献がさらに解明される。
関連論文リスト
- Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting [37.57009831483529]
MLLM(Multimodal Large Language Models)は放射線学レポート生成に強い可能性を示している。
本フレームワークは, より詳細な発見のための思考ブロックと, 構造化された疾患ラベルに対する回答ブロックという, 生成を2つの異なる構成要素に再構成する。
論文 参考訳(メタデータ) (2026-01-06T14:17:44Z) - CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding [23.353712899156417]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚認識と自然言語理解を統合することで,放射線学において顕著な進歩を遂げている。
医学的幻覚と呼ばれる臨床的に欠かせない記述をしばしば生成し、正確さと画像的アウトプットを要求される医学的応用に重大なリスクをもたらす。
我々は,タスク固有の放射線学の専門家モデルから構造化された臨床信号を統合する訓練不要かつ検索不要な推論フレームワークである臨床コントラストデコーディング(CCD)を紹介した。
論文 参考訳(メタデータ) (2025-09-27T16:01:09Z) - Large Model driven Radiology Report Generation with Clinical Quality
Reinforcement Learning [16.849933628738277]
放射線学報告生成 (RRG) は, 放射線技師の作業量削減の可能性から注目されている。
本稿では,新しいRRG法である textbfLM-RRG について紹介する。
MIMIC-CXRおよびIU-Xrayデータセットを用いた実験により,本手法が技術状況よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-11T13:47:11Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。