論文の概要: AMRG: Extend Vision Language Models for Automatic Mammography Report Generation
- arxiv url: http://arxiv.org/abs/2508.09225v1
- Date: Tue, 12 Aug 2025 06:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.636154
- Title: AMRG: Extend Vision Language Models for Automatic Mammography Report Generation
- Title(参考訳): AMRG:マンモグラフィ自動レポート生成のための拡張視覚言語モデル
- Authors: Nak-Jun Sung, Donghyun Lee, Bo Hwa Choi, Chae Jung Park,
- Abstract要約: マンモグラフィーレポート生成は、医療AIにおいて重要で未発見の課題である。
マンモグラフィーレポートを生成するための最初のエンドツーエンドフレームワークであるAMRGを紹介する。
DMIDを用いた高分解能マンモグラフィーと診断レポートの公開データセットであるAMRGのトレーニングと評価を行った。
- 参考スコア(独自算出の注目度): 4.366802575084445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mammography report generation is a critical yet underexplored task in medical AI, characterized by challenges such as multiview image reasoning, high-resolution visual cues, and unstructured radiologic language. In this work, we introduce AMRG (Automatic Mammography Report Generation), the first end-to-end framework for generating narrative mammography reports using large vision-language models (VLMs). Building upon MedGemma-4B-it-a domain-specialized, instruction-tuned VLM-we employ a parameter-efficient fine-tuning (PEFT) strategy via Low-Rank Adaptation (LoRA), enabling lightweight adaptation with minimal computational overhead. We train and evaluate AMRG on DMID, a publicly available dataset of paired high-resolution mammograms and diagnostic reports. This work establishes the first reproducible benchmark for mammography report generation, addressing a longstanding gap in multimodal clinical AI. We systematically explore LoRA hyperparameter configurations and conduct comparative experiments across multiple VLM backbones, including both domain-specific and general-purpose models under a unified tuning protocol. Our framework demonstrates strong performance across both language generation and clinical metrics, achieving a ROUGE-L score of 0.5691, METEOR of 0.6152, CIDEr of 0.5818, and BI-RADS accuracy of 0.5582. Qualitative analysis further highlights improved diagnostic consistency and reduced hallucinations. AMRG offers a scalable and adaptable foundation for radiology report generation and paves the way for future research in multimodal medical AI.
- Abstract(参考訳): マンモグラフィーレポート生成は、多視点画像推論、高解像度視覚的手がかり、非構造化ラジオグラフィー言語などの課題を特徴とする、医療AIにおける重要な課題である。
本研究では,大規模な視覚言語モデル (VLM) を用いた物語マンモグラフィーレポートを生成するための,最初のエンドツーエンドフレームワークである AMRG (Automatic Mammography Report Generation) を紹介する。
MedGemma-4B-it-a Domain-specialized, instruction-tuned VLM-we use a parameter- efficient fine-tuning (PEFT) strategy via Low-Rank Adaptation (LoRA)。
DMIDを用いた高分解能マンモグラフィーと診断レポートの公開データセットであるAMRGのトレーニングと評価を行った。
この研究は、マンモグラフィーレポート生成のための最初の再現可能なベンチマークを確立し、マルチモーダルな臨床AIにおける長年のギャップに対処する。
我々は,LoRAハイパーパラメータの構成を体系的に検討し,ドメイン固有モデルと汎用モデルの両方を含む複数のVLMバックボーンを対象とした比較実験を行った。
言語生成と臨床指標の両面で高い性能を示し,ROUGE-Lスコアは0.5691,METEORは0.6152,CIDErは0.5818,BI-RADS精度は0.5582であった。
定性的分析は、診断の整合性の改善と幻覚の減少をさらに強調する。
AMRGは、放射線学レポート生成のためのスケーラブルで適応可能な基盤を提供し、マルチモーダル医療AIにおける将来の研究の道を開く。
関連論文リスト
- A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - Any-to-Any Vision-Language Model for Multimodal X-ray Imaging and Radiological Report Generation [26.589728923739596]
マルチモーダル医療データ生成に特化して設計されたフレームワークを提案する。
多視点胸部X線の発生と臨床報告により、汎用視覚言語モデルと医療の専門的要件とのギャップを埋める。
我々のフレームワークは、下流疾患分類タスクの実際のデータと比較して、同等またはそれ以上の性能を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:07:24Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - Resource-Efficient Medical Report Generation using Large Language Models [3.2627279988912194]
医療報告生成は胸部X線画像の放射線診断レポートを自動作成する作業である。
本稿では,医療報告生成のタスクに視覚対応大規模言語モデル(LLM)を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T05:08:18Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。