Fugu-MT 論文翻訳(概要): MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

論文の概要: MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

arxiv url: http://arxiv.org/abs/2602.22462v1
Date: Wed, 25 Feb 2026 22:51:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.439485
Title: MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation
Title（参考訳）: MammoWise:マルチモデルローカルRAGパイプラインによるマンモグラフィーレポート生成
Authors: Raiyan Jahangir, Nafiz Imtiaz Khan, Amritanand Sudheerkumar, Vladimir Filkov,
Abstract要約: MammoWiseは、オープンソースのVision Language Modelsをマンモグラムレポートジェネレータに変換する、ローカルなマルチモデルパイプラインである。 MammoWiseはOllamaがホストするVLMとマンモグラフィデータセットをサポートする。 MedGemma, LLaVA-Med, Qwen2.5-VLをVinDr-MammoおよびDMIDデータセット上で評価し, 報告品質(BERTScore, ROUGE-L), BI-RADS分類, 乳房密度, 鍵となる所見について検討した。
参考スコア（独自算出の注目度）: 1.5876186619446135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Screening mammography is high volume, time sensitive, and documentation heavy. Radiologists must translate subtle visual findings into consistent BI-RADS assessments, breast density categories, and structured narrative reports. While recent Vision Language Models (VLMs) enable image-to-text reporting, many rely on closed cloud systems or tightly coupled architectures that limit privacy, reproducibility, and adaptability. We present MammoWise, a local multi-model pipeline that transforms open source VLMs into mammogram report generators and multi-task classifiers. MammoWise supports any Ollama-hosted VLM and mammography dataset, and enables zero-shot, few-shot, and Chain-of-Thought prompting, with optional multimodal Retrieval Augmented Generation (RAG) using a vector database for case-specific context. We evaluate MedGemma, LLaVA-Med, and Qwen2.5-VL on VinDr-Mammo and DMID datasets, assessing report quality (BERTScore, ROUGE-L), BI-RADS classification, breast density, and key findings. Report generation is consistently strong and improves with few-shot prompting and RAG. Classification is feasible but sensitive to model and dataset choice. Parameter-efficient fine-tuning (QLoRA) of MedGemma improves reliability, achieving BI-RADS accuracy of 0.7545, density accuracy of 0.8840, and calcification accuracy of 0.9341 while preserving report quality. MammoWise provides a practical and extensible framework for deploying local VLMs for mammography reporting within a unified and reproducible workflow.
Abstract（参考訳）: マンモグラフィーのスクリーニングは量が多く、時間に敏感で、ドキュメントも重い。放射線医は微妙な視覚所見を、一貫したBI-RADS評価、乳房密度分類、構造化された物語レポートに変換する必要がある。最近のビジョン言語モデル(VLM)は、画像からテキストへのレポートを可能にするが、多くは、プライバシ、再現性、適応性を制限する、クローズドクラウドシステムや密結合アーキテクチャに依存している。本稿では,オープンソースのVLMをマンモグラムレポート生成器やマルチタスク分類器に変換するマルチモデルパイプラインであるMammoWiseを紹介する。 MammoWiseは、OllamaがホストするVLMおよびマンモグラフィデータセットをサポートし、ケース固有のコンテキストにベクトルデータベースを使用して、オプションのマルチモーダル検索拡張生成(RAG)を使用して、ゼロショット、少数ショット、およびChain-of-Thoughtプロンプトを可能にする。 MedGemma, LLaVA-Med, Qwen2.5-VLをVinDr-MammoおよびDMIDデータセット上で評価し, 報告品質(BERTScore, ROUGE-L), BI-RADS分類, 乳房密度, 鍵となる所見について検討した。レポート生成は一貫して強力で、数発のプロンプトとRAGで改善されている。分類は可能であるが、モデルとデータセットの選択に敏感である。パラメータ効率のよいMedGemmaの微調整(QLoRA)は信頼性を改善し、BI-RADSの精度は0.7545、密度は0.8840、石灰化精度は0.9341となる。 MammoWiseは、統一された再現可能なワークフロー内で、マンモグラフィーレポート用のローカルVLMをデプロイするための実用的で拡張可能なフレームワークを提供する。

関連論文リスト

AMRG: Extend Vision Language Models for Automatic Mammography Report Generation [4.366802575084445]
マンモグラフィーレポート生成は、医療AIにおいて重要で未発見の課題である。マンモグラフィーレポートを生成するための最初のエンドツーエンドフレームワークであるAMRGを紹介する。 DMIDを用いた高分解能マンモグラフィーと診断レポートの公開データセットであるAMRGのトレーニングと評価を行った。
論文参考訳（メタデータ） (2025-08-12T06:37:41Z)
$μ^2$Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation [9.947108972979155]
我々は,放射線学レポート生成タスクのための大規模言語モデルとして,$mu2$LLM, a $underlinetextbfmu$ltiscale $underlinetextbfmu$ltimodalを提案する。中間層である$mu2$Tokenizerは、マルチスケールのビジュアルトークンライザとテキストトークンライザのマルチモーダル機能を統合したものである。そこで我々は,5段階のLCM駆動パイプラインを導入し,定期的なCTレポートを3重対の視覚質問応答と引用リンク推論の物語に変換する。
論文参考訳（メタデータ） (2025-06-30T23:14:49Z)
RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文参考訳（メタデータ） (2025-01-13T17:55:32Z)
HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文参考訳（メタデータ） (2024-12-15T06:04:16Z)
Semantic Consistency-Based Uncertainty Quantification for Factuality in Radiology Report Generation [20.173287130474797]
生成医療ビジョン大言語モデル(VLLM)は幻覚を起こしやすく、不正確な診断情報を生成できる。報告レベルと文レベルの不確実性の両方を提供するセマンティック一貫性に基づく不確実性定量化フレームワークを新たに導入する。提案手法は,MIMIC-CXRデータセット上のtexttRadialogモデルを用いて,20ドル分のレポートを拒否することで,事実性スコアを10ドル%改善する。
論文参考訳（メタデータ） (2024-12-05T20:43:39Z)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文参考訳（メタデータ） (2024-10-16T23:03:27Z)
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。 65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文参考訳（メタデータ） (2024-08-06T02:09:35Z)
C^2M-DoT: Cross-modal consistent multi-view medical report generation with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。 C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2023-10-09T02:31:36Z)
AlignTransformer: Hierarchical Alignment of Visual Regions and Disease Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文参考訳（メタデータ） (2022-03-18T13:43:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。