論文の概要: Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2512.16201v1
- Date: Thu, 18 Dec 2025 05:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.932263
- Title: Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation
- Title(参考訳): 地中放射線診断用医用ビジョンランゲージモデルの視覚的アライメント
- Authors: Sarosij Bose, Ravi K. Rajendran, Biplob Debnath, Konstantinos Karydis, Amit K. Roy-Chowdhury, Srimat Chakradhar,
- Abstract要約: VALOR:放射線診断用医用ビジョンランゲージモデルの視覚的アライメントを提案する。
GRPO(Group-Relative Proximal Optimization)を利用した強化学習に基づくポストアライメントフレームワークを提案する。
複数のベンチマークの実験では、VALORは事実の精度と視覚的グラウンド化を大幅に改善し、最先端のレポート生成手法よりも大きなパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 25.148217482604746
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Radiology Report Generation (RRG) is a critical step toward automating healthcare workflows, facilitating accurate patient assessments, and reducing the workload of medical professionals. Despite recent progress in Large Medical Vision-Language Models (Med-VLMs), generating radiology reports that are both visually grounded and clinically accurate remains a significant challenge. Existing approaches often rely on large labeled corpora for pre-training, costly task-specific preference data, or retrieval-based methods. However, these strategies do not adequately mitigate hallucinations arising from poor cross-modal alignment between visual and linguistic representations. To address these limitations, we propose VALOR:Visual Alignment of Medical Vision-Language Models for GrOunded Radiology Report Generation. Our method introduces a reinforcement learning-based post-alignment framework utilizing Group-Relative Proximal Optimization (GRPO). The training proceeds in two stages: (1) improving the Med-VLM with textual rewards to encourage clinically precise terminology, and (2) aligning the vision projection module of the textually grounded model with disease findings, thereby guiding attention toward image re gions most relevant to the diagnostic task. Extensive experiments on multiple benchmarks demonstrate that VALOR substantially improves factual accuracy and visual grounding, achieving significant performance gains over state-of-the-art report generation methods.
- Abstract(参考訳): 放射線診断報告生成(RRG)は、医療ワークフローの自動化、患者の正確な評価の促進、医療専門家の作業負荷の削減に向けた重要なステップである。
近年の大規模医療ビジョンランゲージモデル(Med-VLMs)の進歩にもかかわらず、視覚的根拠と臨床的正確性の両方がある放射線学レポートを生成することは大きな課題である。
既存のアプローチでは、事前学習やタスク固有の選好データ、検索ベースの方法など、大きなラベル付きコーパスに頼っていることが多い。
しかし、これらの戦略は視覚的表現と言語的表現の相互の整合性に乏しいことから生じる幻覚を適切に緩和するものではない。
これらの制約に対処するため,GrOunded Radiology Report Generation のための医用視覚言語モデルのビジュアルアライメントを提案する。
本稿では,GRPO(Group-Relative Proximal Optimization)を利用した強化学習に基づくポストアライメントフレームワークを提案する。
トレーニングは,(1) テキスト報酬によるMed-VLMの改善,(2) 臨床的に正確な用語の促進,(2) テキスト接地モデルの視覚投射モジュールと疾患所見との整合,という2段階に進み, 診断タスクに最も関係のある画像レギオンに注意を向ける。
複数のベンチマークでの大規模な実験により、VALORは事実の精度と視覚的グラウンド化を大幅に改善し、最先端のレポート生成手法よりも顕著な性能向上を実現している。
関連論文リスト
- XBench: A Comprehensive Benchmark for Visual-Language Explanations in Chest Radiography [6.447908430647854]
胸部X線におけるクロスモーダル解釈性を評価するための最初の体系的ベンチマークを示す。
我々は,クロスアテンションと類似性に基づくローカライズマップを用いた視覚的説明を生成する。
複数の病理組織を横断する放射線診断領域とのアライメントを定量的に評価した。
論文 参考訳(メタデータ) (2025-10-22T13:52:19Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Reason Like a Radiologist: Chain-of-Thought and Reinforcement Learning for Verifiable Report Generation [13.580272788409092]
BoxMed-RLは、空間的に検証可能な説明可能な放射線学レポートを生成するための、画期的な統合トレーニングフレームワークである。
大きなビジョン言語モデルに基づいて構築されたBoxMed-RLは、2つの統合フェーズを通じてレポート生成に革命をもたらす。
BoxMed-RLは、最先端の手法と比較して、METEORとROUGE-Lの両方で平均7%改善されている。
論文 参考訳(メタデータ) (2025-04-25T16:05:06Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Improving Medical Report Generation with Adapter Tuning and Knowledge
Enhancement in Vision-Language Foundation Models [26.146579369491718]
この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。
ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。
論文 参考訳(メタデータ) (2023-12-07T01:01:45Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。