論文の概要: Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting
- arxiv url: http://arxiv.org/abs/2601.03321v2
- Date: Mon, 12 Jan 2026 05:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 15:02:56.361715
- Title: Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting
- Title(参考訳): 診断による発見の調整:信頼できる放射線学レポートのための自己持続型強化学習フレームワーク
- Authors: Kun Zhao, Siyuan Dai, Pan Wang, Jifeng Song, Hui Ji, Chenghua Lin, Liang Zhan, Haoteng Tang,
- Abstract要約: MLLM(Multimodal Large Language Models)は放射線学レポート生成に強い可能性を示している。
本フレームワークは, より詳細な発見のための思考ブロックと, 構造化された疾患ラベルに対する回答ブロックという, 生成を2つの異なる構成要素に再構成する。
- 参考スコア(独自算出の注目度): 37.57009831483529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown strong potential for radiology report generation, yet their clinical translation is hindered by architectural heterogeneity and the prevalence of factual hallucinations. Standard supervised fine-tuning often fails to strictly align linguistic outputs with visual evidence, while existing reinforcement learning approaches struggle with either prohibitive computational costs or limited exploration. To address these challenges, we propose a comprehensive framework for self-consistent radiology report generation. First, we conduct a systematic evaluation to identify optimal vision encoder and LLM backbone configurations for medical imaging. Building on this foundation, we introduce a novel "Reason-then-Summarize" architecture optimized via Group Relative Policy Optimization (GRPO). This framework restructures generation into two distinct components: a think block for detailed findings and an answer block for structured disease labels. By utilizing a multi-dimensional composite reward function, we explicitly penalize logical discrepancies between the generated narrative and the final diagnosis. Extensive experiments on the MIMIC-CXR benchmark demonstrate that our method achieves state-of-the-art performance in clinical efficacy metrics and significantly reduces hallucinations compared to strong supervised baselines.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は放射線学レポート生成の強力な可能性を示しているが、その臨床翻訳は建築的異質性と事実幻覚の流行によって妨げられている。
標準的な教師付き微調整は、言語出力を視覚的証拠と厳密に整合させるのに失敗することが多いが、既存の強化学習アプローチは、禁止的な計算コストまたは限定的な探索に苦慮している。
これらの課題に対処するため、我々は、自己一貫性のある放射線診断レポート生成のための包括的な枠組みを提案する。
まず,医用画像のための最適な視覚エンコーダとLLMバックボーン構成を特定するための系統的評価を行う。
この基盤を基盤として,グループ相対政策最適化(GRPO)により最適化された新しい"Reason-then-Summarize"アーキテクチャを導入する。
このフレームワークは、生成を、詳細な発見のためのシンクブロックと、構造化された疾患ラベルに対する回答ブロックの2つの異なる構成要素に再構成する。
多次元複合報酬関数を用いて,生成した物語と最終診断との論理的相違を明確化する。
MIMIC-CXRベンチマークの大規模実験により,本手法は臨床効果指標の最先端性能を達成し,強い教師付きベースラインに比べて幻覚を著しく低減することが示された。
関連論文リスト
- MRG-R1: Reinforcement Learning for Clinically Aligned Medical Report Generation [23.22547135801011]
医療報告生成のための意味駆動型強化学習(SRL)手法を提案する。
SRLは、言語スタイルの模倣を超えた臨床的正確性に基づく学習を促進する。
IU X線とMIMIC-CXRの2つのデータセットを用いたSRLを用いた医療報告生成の評価を行った。
論文 参考訳(メタデータ) (2025-12-18T03:57:55Z) - DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities [3.5045368873011924]
本稿では,Dentangled Alignment を用いた頑健な放射線診断を行う DiA-gnostic VLVAE を提案する。
我々のフレームワークは、共有機能とモダリティ固有の機能を混在させることにより、モダリティの欠如に耐性を持つように設計されている。
コンパクトなLLaMA-Xデコーダは、これらの不整合表現を使用してレポートを効率的に生成する。
論文 参考訳(メタデータ) (2025-11-08T11:08:27Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Medical AI Consensus: A Multi-Agent Framework for Radiology Report Generation and Evaluation [0.2039123720459736]
放射線学のエコシステムにおけるマルチモーダルな臨床推論のためのベンチマークおよび評価環境として機能するマルチエージェント強化学習フレームワークを提案する。
提案フレームワークは,画像解析,特徴抽出,レポート生成,レビュー,評価を担当する10の特殊エージェントからなるモジュールアーキテクチャにおいて,大規模言語モデル(LLM)と大規模ビジョンモデル(LVM)を統合する。
論文 参考訳(メタデータ) (2025-09-22T04:31:27Z) - A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - Knowledge-Augmented Language Models Interpreting Structured Chest X-Ray Findings [44.99833362998488]
本稿では,胸部X線解釈に強力なテキスト中心言語モデルを利用する新しいフレームワークであるCXR-TextInterを紹介する。
我々は,このLCM中心のアプローチを統合医療知識モジュールで強化し,臨床推論を強化する。
我々の研究は医療画像AIの代替パラダイムを検証し、高度なLLM機能を活用する可能性を示している。
論文 参考訳(メタデータ) (2025-05-03T06:18:12Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。