論文の概要: MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2411.11362v1
- Date: Mon, 18 Nov 2024 08:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:40.361508
- Title: MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models
- Title(参考訳): MAIRA-Seg: セグメンテーション対応マルチモーダル大言語モデルを用いた放射線学レポート作成
- Authors: Harshita Sharma, Valentina Salvatelli, Shaury Srivastav, Kenza Bouzid, Shruthi Bannur, Daniel C. Castro, Maximilian Ilse, Sam Bond-Taylor, Mercy Prasanna Ranjit, Fabian Falck, Fernando Pérez-García, Anton Schwaighofer, Hannah Richardson, Maria Teodora Wetscherek, Stephanie L. Hyland, Javier Alvarez-Valle,
- Abstract要約: 放射線学レポート生成のためのセグメンテーション対応MLLMフレームワークMAIRA-Segを紹介する。
我々は、CXRにおける放射線学固有の構造のためのマスク擬似ラベルを得るために、専門家セグメンテーションモデルを訓練する。
我々は,プロンプトのマスク・アウェア・プロンプトを用いて,放射線学のドラフトレポートを作成している。
- 参考スコア(独自算出の注目度): 36.59952396405939
- License:
- Abstract: There is growing interest in applying AI to radiology report generation, particularly for chest X-rays (CXRs). This paper investigates whether incorporating pixel-level information through segmentation masks can improve fine-grained image interpretation of multimodal large language models (MLLMs) for radiology report generation. We introduce MAIRA-Seg, a segmentation-aware MLLM framework designed to utilize semantic segmentation masks alongside CXRs for generating radiology reports. We train expert segmentation models to obtain mask pseudolabels for radiology-specific structures in CXRs. Subsequently, building on the architectures of MAIRA, a CXR-specialised model for report generation, we integrate a trainable segmentation tokens extractor that leverages these mask pseudolabels, and employ mask-aware prompting to generate draft radiology reports. Our experiments on the publicly available MIMIC-CXR dataset show that MAIRA-Seg outperforms non-segmentation baselines. We also investigate set-of-marks prompting with MAIRA and find that MAIRA-Seg consistently demonstrates comparable or superior performance. The results confirm that using segmentation masks enhances the nuanced reasoning of MLLMs, potentially contributing to better clinical outcomes.
- Abstract(参考訳): 放射線学レポート生成、特に胸部X線(CXR)にAIを適用することへの関心が高まっている。
本稿では,マルチモーダル大言語モデル (MLLM) の細粒度画像解釈を改善するために,セグメンテーションマスクによる画素レベル情報の導入が可能であるかを検討する。
セグメンテーションを意識したMLLMフレームワークであるMAIRA-Segを紹介し,CXRとともにセグメンテーションマスクを用いて放射線学レポートを生成する。
我々は、CXRにおける放射線学固有の構造のためのマスク擬似ラベルを得るために、専門家セグメンテーションモデルを訓練する。
その後、CXR仕様のレポート生成モデルであるMAIRAのアーキテクチャに基づいて、これらのマスク擬似ラベルを利用したトレーニング可能なセグメンテーショントークン抽出器を統合し、マスク認識プロンプトを用いて、ドラフトラジオロジーレポートを生成する。
公開されているMIMIC-CXRデータセットによる実験の結果,MAIRA-Segは非セグメンテーションベースラインよりも優れていた。
MAIRA-Segは,MAIRA-Segと同等あるいは優れた性能を示す。
その結果, セグメンテーションマスクの使用によりMLLMの曖昧な推論が促進され, 臨床効果が向上する可能性が示唆された。
関連論文リスト
- Memory-based Cross-modal Semantic Alignment Network for Radiology Report Generation [5.314122066634083]
疾患に関連する重要な情報は、画像と報告の両方においてわずかに占める。
このモデルでは, 放射線画像と報告との間に潜伏する関係を学習することは困難であり, 流動的で正確な放射線画像を生成することは困難である。
メモリベースのクロスモーダルアライメントモデル(MCSAM)をエンコーダ・デコーダのパラダイムに従って提案する。
論文 参考訳(メタデータ) (2024-03-31T07:30:41Z) - MedCLIP-SAM: Bridging Text and Image Towards Universal Medical Image Segmentation [2.2585213273821716]
本稿では,CLIPモデルとSAMモデルを組み合わせて臨床スキャンのセグメンテーションを生成する新しいフレームワーク MedCLIP-SAM を提案する。
3つの多様なセグメンテーションタスクと医用画像モダリティを広範囲にテストすることにより、提案手法は優れた精度を示した。
論文 参考訳(メタデータ) (2024-03-29T15:59:11Z) - Mask-Enhanced Segment Anything Model for Tumor Lesion Semantic Segmentation [48.107348956719775]
Mask-Enhanced SAM (M-SAM) は, 腫瘍の3次元セグメント化に適した革新的なアーキテクチャである。
本稿では,M-SAM内におけるMask-Enhanced Adapter (MEA) を提案する。
我々のM-SAMは高いセグメンテーション精度を達成し、またロバストな一般化を示す。
論文 参考訳(メタデータ) (2024-03-09T13:37:02Z) - MAIRA-1: A specialised large multimodal model for radiology report generation [41.69727330319648]
胸部X線(CXR)から放射線学的レポートを生成するための放射線学固有のマルチモーダルモデルを提案する。
我々の研究は、学習済みの視覚エンコーダとアライメントすることで、大規模言語モデルにマルチモーダル機能を持たせることができるという考えに基づいている。
提案モデル(MAIRA-1)は,Vicuna-7Bに基づく微調整された大規模言語モデルと協調してCXR固有の画像エンコーダを利用して,最先端の品質のレポートを生成する。
論文 参考訳(メタデータ) (2023-11-22T19:45:40Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Learning Class-Agnostic Pseudo Mask Generation for Box-Supervised
Semantic Segmentation [156.9155100983315]
ボックス教師付きセマンティクスセグメンテーションに合わせた,より正確な学習ベースのクラス非依存な擬似マスクジェネレータを求める。
この方法は、ボックス監視モデルとフル監視モデルの間のパフォーマンスギャップをさらに埋めることができます。
論文 参考訳(メタデータ) (2021-03-09T14:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。