論文の概要: MRG-R1: Reinforcement Learning for Clinically Aligned Medical Report Generation
- arxiv url: http://arxiv.org/abs/2512.16145v1
- Date: Thu, 18 Dec 2025 03:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.905937
- Title: MRG-R1: Reinforcement Learning for Clinically Aligned Medical Report Generation
- Title(参考訳): MRG-R1 : 臨床適応医療報告作成のための強化学習
- Authors: Pengyu Wang, Shuchang Ye, Usman Naseem, Jinman Kim,
- Abstract要約: 医療報告生成のための意味駆動型強化学習(SRL)手法を提案する。
SRLは、言語スタイルの模倣を超えた臨床的正確性に基づく学習を促進する。
IU X線とMIMIC-CXRの2つのデータセットを用いたSRLを用いた医療報告生成の評価を行った。
- 参考スコア(独自算出の注目度): 23.22547135801011
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical report generation (MRG) aims to automatically derive radiology-style reports from medical images to aid in clinical decision-making. However, existing methods often generate text that mimics the linguistic style of radiologists but fails to guarantee clinical correctness, because they are trained on token-level objectives which focus on word-choice and sentence structure rather than actual medical accuracy. We propose a semantic-driven reinforcement learning (SRL) method for medical report generation, adopted on a large vision-language model (LVLM). SRL adopts Group Relative Policy Optimization (GRPO) to encourage clinical-correctness-guided learning beyond imitation of language style. Specifically, we optimise a report-level reward: a margin-based cosine similarity (MCCS) computed between key radiological findings extracted from generated and reference reports, thereby directly aligning clinical-label agreement and improving semantic correctness. A lightweight reasoning format constraint further guides the model to generate structured "thinking report" outputs. We evaluate Medical Report Generation with Sematic-driven Reinforment Learning (MRG-R1), on two datasets: IU X-Ray and MIMIC-CXR using clinical efficacy (CE) metrics. MRG-R1 achieves state-of-the-art performance with CE-F1 51.88 on IU X-Ray and 40.39 on MIMIC-CXR. We found that the label-semantic reinforcement is better than conventional token-level supervision. These results indicate that optimizing a clinically grounded, report-level reward rather than token overlap,meaningfully improves clinical correctness. This work is a prior to explore semantic-reinforcement in supervising medical correctness in medical Large vision-language model(Med-LVLM) training.
- Abstract(参考訳): 医療報告生成(MRG)は、医療画像から放射線学的な報告を自動的に導き、臨床的な意思決定を支援することを目的としている。
しかし,既存の手法では,実際の医学的正確性ではなく,単語選択や文構造に焦点をあてたトークンレベルの目標に基づいて訓練されているため,臨床的正確性を保証することができないことが多い。
大規模視覚言語モデル(LVLM)に応用した,医療報告生成のための意味駆動型強化学習(SRL)手法を提案する。
SRLはGRPO(Group Relative Policy Optimization)を採用し、言語スタイルの模倣を超えた臨床的正確性に基づく学習を促進する。
具体的には, 報告レベルの報酬を最適化する: 生成された報告から抽出した主要な放射線学的所見と基準報告との間で計算されたマージンベースのコサイン類似度(MCCS)を計算し, 臨床ラベルの一致を直接調整し, 意味的正当性を向上する。
軽量な推論形式制約により、モデルはさらに構造化された「レポート」出力を生成するように誘導する。
IU X-RayとMIMIC-CXRの2つのデータセットを用いて, セマティック・リモーメント・ラーニング(MRG-R1)を用いた医療報告生成の評価を行った。
MRG-R1は、IU X線でCE-F1 51.88、MIMIC-CXRで40.39で最先端の性能を達成した。
その結果,従来のトークンレベルの監視よりもラベル・セマンティック強化の方が優れていることがわかった。
以上の結果から,トークンの重複よりも,臨床的根拠に基づく報告レベルの報酬の最適化が臨床的正当性を向上させることが示唆された。
この研究は、医学的視覚言語モデル(Med-LVLM)トレーニングにおける医学的正当性監視における意味強化の先行研究である。
関連論文リスト
- Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation [25.148217482604746]
VALOR:放射線診断用医用ビジョンランゲージモデルの視覚的アライメントを提案する。
GRPO(Group-Relative Proximal Optimization)を利用した強化学習に基づくポストアライメントフレームワークを提案する。
複数のベンチマークの実験では、VALORは事実の精度と視覚的グラウンド化を大幅に改善し、最先端のレポート生成手法よりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-12-18T05:48:21Z) - CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings [1.515687944002438]
専門家の2段階のワークフローを反映して診断精度を直接最適化する新しいフレームワークであるCLARIFIDを提案する。
CLARIFIDは、セクション認識事前学習を通じて、FundingsからImpressionへの論理フローを学習する。
本手法は,NLGの基準値と臨床意識スコアの両方において,優れた臨床効果を達成し,既存の基準値よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-23T05:57:59Z) - Refine Medical Diagnosis Using Generation Augmented Retrieval and Clinical Practice Guidelines [16.56254046507092]
GARMLE-Gは、医療用言語モデルの出力を権威的ガイドラインに根拠づけた、世代別検索フレームワークである。
従来のRetrieval-Augmented Generationベースのアプローチとは異なり、GARMLE-Gは権威的なガイドラインコンテンツを直接検索することで幻覚のない出力を可能にする。
高血圧診断のためのプロトタイプシステムを開発し, 検索精度, 意味的関連性, 臨床ガイドラインの適合性を実証した。
論文 参考訳(メタデータ) (2025-06-22T11:31:13Z) - Revolutionizing Radiology Workflow with Factual and Efficient CXR Report Generation [0.0]
本稿では,胸部X線自動生成に特化して開発されたLLM中心の基盤モデルであるCXR-PathFinderを紹介する。
本稿では,専門的な臨床フィードバックを相手の学習フレームワークに統合する,ユニークな訓練パラダイムであるCGAFTを提案する。
我々の実験は、CXR-PathFinderが、様々なメトリクスで既存の最先端の医療ビジョン言語モデルを大幅に上回っていることを実証した。
論文 参考訳(メタデータ) (2025-06-01T18:47:49Z) - Reason Like a Radiologist: Chain-of-Thought and Reinforcement Learning for Verifiable Report Generation [13.580272788409092]
BoxMed-RLは、空間的に検証可能な説明可能な放射線学レポートを生成するための、画期的な統合トレーニングフレームワークである。
大きなビジョン言語モデルに基づいて構築されたBoxMed-RLは、2つの統合フェーズを通じてレポート生成に革命をもたらす。
BoxMed-RLは、最先端の手法と比較して、METEORとROUGE-Lの両方で平均7%改善されている。
論文 参考訳(メタデータ) (2025-04-25T16:05:06Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。