論文の概要: Scaling medical imaging report generation with multimodal reinforcement learning
- arxiv url: http://arxiv.org/abs/2601.17151v1
- Date: Fri, 23 Jan 2026 20:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.308974
- Title: Scaling medical imaging report generation with multimodal reinforcement learning
- Title(参考訳): マルチモーダル強化学習による医療画像レポートの作成
- Authors: Qianchu Liu, Sheng Zhang, Guanghui Qin, Yu Gu, Ying Jin, Sam Preston, Yanbo Xu, Sid Kiblawi, Wen-wai Yim, Tim Ossowski, Tristan Naumann, Mu Wei, Hoifung Poon,
- Abstract要約: 改良された微調整は性能を大幅に向上させるが、表面的なボイラープレートパターンに過度に適合する傾向がある。
医用画像レポート生成の一般的な枠組みとしてユニバーサルレポート生成(UniRG)を紹介する。
- 参考スコア(独自算出の注目度): 24.35950918794035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier models have demonstrated remarkable capabilities in understanding and reasoning with natural-language text, but they still exhibit major competency gaps in multimodal understanding and reasoning especially in high-value verticals such as biomedicine. Medical imaging report generation is a prominent example. Supervised fine-tuning can substantially improve performance, but they are prone to overfitting to superficial boilerplate patterns. In this paper, we introduce Universal Report Generation (UniRG) as a general framework for medical imaging report generation. By leveraging reinforcement learning as a unifying mechanism to directly optimize for evaluation metrics designed for end applications, UniRG can significantly improve upon supervised fine-tuning and attain durable generalization across diverse institutions and clinical practices. We trained UniRG-CXR on publicly available chest X-ray (CXR) data and conducted a thorough evaluation in CXR report generation with rigorous evaluation scenarios. On the authoritative ReXrank benchmark, UniRG-CXR sets new overall SOTA, outperforming prior state of the art by a wide margin.
- Abstract(参考訳): フロンティアモデルは、自然言語による理解と推論において顕著な能力を示してきたが、特にバイオメディシンのような高価値な分野において、多モーダルな理解と推論において大きな能力的ギャップをみせている。
医用画像レポート生成が顕著な例である。
改良された微調整は性能を大幅に向上させるが、表面的なボイラープレートパターンに過度に適合する傾向がある。
本稿では,医療画像レポート生成の一般的な枠組みとしてユニバーサルレポート生成(UniRG)を紹介する。
エンドアプリケーション用に設計された評価指標を直接最適化するための統一メカニズムとして強化学習を活用することにより、UniRGは教師付き微調整によって大幅に改善され、多様な機関や臨床実践にわたって耐久性のある一般化が達成される。
胸部X線(CXR)データを用いてUniRG-CXRを訓練し,厳密な評価シナリオでCXRレポート生成を徹底的に評価した。
信頼性の高いReXrankベンチマークでは、UniRG-CXRがSOTAを新たに設定し、最先端よりも広いマージンで優れている。
関連論文リスト
- Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting [37.57009831483529]
MLLM(Multimodal Large Language Models)は放射線学レポート生成に強い可能性を示している。
本フレームワークは, より詳細な発見のための思考ブロックと, 構造化された疾患ラベルに対する回答ブロックという, 生成を2つの異なる構成要素に再構成する。
論文 参考訳(メタデータ) (2026-01-06T14:17:44Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - EMRRG: Efficient Fine-Tuning Pre-trained X-ray Mamba Networks for Radiology Report Generation [16.23892817333913]
EMRRGは、トレーニング済みのMambaネットワークを微調整する新しいX線レポート生成フレームワークである。
ハイブリッドデコーダを備えたLCMは、医療レポートを生成し、エンドツーエンドのトレーニングを可能にし、ベンチマークデータセット上で強力な結果を得ることができる。
論文 参考訳(メタデータ) (2025-10-19T09:54:36Z) - HistGen: Histopathology Report Generation via Local-Global Feature Encoding and Cross-modal Context Interaction [16.060286162384536]
HistGenは、病理組織学レポート生成のための学習可能なフレームワークである。
スライド画像全体(WSI)と局所的およびグローバルな粒度からの診断レポートを整列させることで、レポート生成を促進することを目的としている。
WSIレポート生成実験の結果,提案手法は最先端モデル(SOTA)よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-08T15:51:43Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。