論文の概要: Reason Like a Radiologist: Chain-of-Thought and Reinforcement Learning for Verifiable Report Generation
- arxiv url: http://arxiv.org/abs/2504.18453v1
- Date: Fri, 25 Apr 2025 16:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.837507
- Title: Reason Like a Radiologist: Chain-of-Thought and Reinforcement Learning for Verifiable Report Generation
- Title(参考訳): 放射線科医としての理学療法 : 信頼性レポート生成のためのチェーン・オブ・ソートと強化学習
- Authors: Peiyuan Jing, Kinhei Lee, Zhenxuan Zhang, Huichi Zhou, Zhengqing Yuan, Zhifan Gao, Lei Zhu, Giorgos Papanastasiou, Yingying Fang, Guang Yang,
- Abstract要約: BoxMed-RLは、空間的に検証可能な説明可能な放射線学レポートを生成するための、画期的な統合トレーニングフレームワークである。
大きなビジョン言語モデルに基づいて構築されたBoxMed-RLは、2つの統合フェーズを通じてレポート生成に革命をもたらす。
BoxMed-RLは、最先端の手法と比較して、METEORとROUGE-Lの両方で平均7%改善されている。
- 参考スコア(独自算出の注目度): 13.580272788409092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiology report generation is critical for efficiency but current models lack the structured reasoning of experts, hindering clinical trust and explainability by failing to link visual findings to precise anatomical locations. This paper introduces BoxMed-RL, a groundbreaking unified training framework for generating spatially verifiable and explainable radiology reports. Built on a large vision-language model, BoxMed-RL revolutionizes report generation through two integrated phases: (1) In the Pretraining Phase, we refine the model via medical concept learning, using Chain-of-Thought supervision to internalize the radiologist-like workflow, followed by spatially verifiable reinforcement, which applies reinforcement learning to align medical findings with bounding boxes. (2) In the Downstream Adapter Phase, we freeze the pretrained weights and train a downstream adapter to ensure fluent and clinically credible reports. This framework precisely mimics radiologists' workflow, compelling the model to connect high-level medical concepts with definitive anatomical evidence. Extensive experiments on public datasets demonstrate that BoxMed-RL achieves an average 7% improvement in both METEOR and ROUGE-L metrics compared to state-of-the-art methods. An average 5% improvement in large language model-based metrics further underscores BoxMed-RL's robustness in generating high-quality radiology reports.
- Abstract(参考訳): 放射線学報告の生成は効率性にとって重要であるが、現在のモデルでは専門家の構造的推論が欠如しており、視覚所見と正確な解剖学的位置を関連づけることのできない臨床的信頼と説明可能性を妨げる。
本稿では,空間的に検証可能かつ説明可能な放射線学レポートを生成するための一貫したトレーニングフレームワークであるBoxMed-RLを紹介する。
大規模視覚言語モデルに基づいて,BoxMed-RLは2つの統合フェーズを通じてレポート生成に革命をもたらす。(1)予知段階において,我々は医療概念学習を通じて,放射線科医のようなワークフローを内在化するためにChain-of-Thought監督を用いてモデルを洗練し,次いで空間的に検証可能な強化を加えて,医療所見を境界ボックスと整合させる。
2) 下流適応相では, 事前訓練した重量を凍結し, 下流アダプタを訓練し, 流動的かつ臨床的に信頼性の高い報告を確実にする。
この枠組みは、放射線学者のワークフローを正確に模倣し、高レベルの医療概念と決定的な解剖学的証拠を結びつけるようにモデルを説得する。
公開データセットに関する大規模な実験によると、BoxMed-RLは、最先端の手法と比較して、METEORとROUGE-Lの両方で平均7%改善されている。
大規模言語モデルに基づくメトリクスの平均5%の改善により、BoxMed-RLの高品質な放射線学レポート作成における堅牢性がさらに強調される。
関連論文リスト
- Abn-BLIP: Abnormality-aligned Bootstrapping Language-Image Pre-training for Pulmonary Embolism Diagnosis and Report Generation from CTPA [3.1001390303501153]
Abn-BLIPは放射線診断の精度と包括性を生成するために異常所見の整合を図った高度な診断モデルである。
以上の結果から,Abn-BLIPは最先端の医療ビジョン言語モデルおよび3Dレポート生成手法よりも精度および臨床関連性が高いことがわかった。
論文 参考訳(メタデータ) (2025-03-03T20:13:39Z) - Resource-Efficient Medical Report Generation using Large Language Models [3.2627279988912194]
医療報告生成は胸部X線画像の放射線診断レポートを自動作成する作業である。
本稿では,医療報告生成のタスクに視覚対応大規模言語モデル(LLM)を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T05:08:18Z) - TRRG: Towards Truthful Radiology Report Generation With Cross-modal Disease Clue Enhanced Large Language Model [22.305034251561835]
そこで我々は,大規模言語モデルへのクロスモーダル病ヒントインジェクションの段階的訓練に基づく,真正な放射線学レポート生成フレームワークTRRGを提案する。
提案フレームワークは,IU-XrayやMIMIC-CXRなどのデータセットを用いた放射線学レポート生成において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-08-22T05:52:27Z) - Fact-Aware Multimodal Retrieval Augmentation for Accurate Medical Radiology Report Generation [14.86028303006519]
正確な放射線診断レポートを生成するために,ファクトアウェアなマルチモーダル検索拡張パイプラインを導入する。
私たちはまずRadGraphを活用して実例レポートペアを抽出し、次に実例知識を統合してユニバーサルなマルチモーダルレトリバーをトレーニングします。
実験により,我々のマルチモーダルレトリバーは,言語生成と放射線学固有の指標の両方において最先端のレトリバーより優れていることが示された。
論文 参考訳(メタデータ) (2024-07-21T21:04:28Z) - Summarizing Radiology Reports Findings into Impressions [1.8964110318127383]
本稿では,最新の放射線学報告による要約性能のモデルを提案する。
また、モデル限界と放射線学知識の獲得について分析する。
我々の最高の性能モデルは、58.75/100 ROUGE-L F1で調整されたBERT-to-BERTエンコーダデコーダであった。
論文 参考訳(メタデータ) (2024-05-10T20:29:25Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Radiology-Llama2: Best-in-Class Large Language Model for Radiology [71.27700230067168]
本稿では,ラジオロジーに特化した大規模言語モデルであるRadiology-Llama2を紹介する。
MIMIC-CXRとOpenIデータセットのROUGEメトリクスを用いた定量的評価は、Radiology-Llama2が最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-08-29T17:44:28Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Radiology Report Generation with a Learned Knowledge Base and
Multi-modal Alignment [27.111857943935725]
胸部X線からのレポート生成のための自動マルチモーダルアプローチを提案する。
本手法は,学習知識ベースとマルチモーダルアライメントの2つの異なるモジュールを特徴とする。
両モジュールの助けを借りて、我々のアプローチは明らかに最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-12-30T10:43:56Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。