論文の概要: MAIRA-2: Grounded Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2406.04449v1
- Date: Thu, 6 Jun 2024 19:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:17:07.903255
- Title: MAIRA-2: Grounded Radiology Report Generation
- Title(参考訳): MAIRA-2:グラウンドド・ラジオロジー・レポート・ジェネレーション
- Authors: Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Anton Schwaighofer, Sam Bond-Taylor, Maximilian Ilse, Fernando Pérez-García, Valentina Salvatelli, Harshita Sharma, Felix Meissen, Mercy Ranjit, Shaury Srivastav, Julia Gong, Fabian Falck, Ozan Oktay, Anja Thieme, Matthew P. Lungren, Maria Teodora Wetscherek, Javier Alvarez-Valle, Stephanie L. Hyland,
- Abstract要約: 放射線学報告は、詳細な画像理解、複数入力の統合、正確な言語生成を必要とする複雑なタスクである。
ここでは、画像上の個々の発見の局所化を含むレポート生成を拡張し、そのタスクをグラウンドドレポート生成と呼ぶ。
放射線学固有の画像エンコーダをLCMと組み合わせた大規模マルチモーダルモデルMAIRA-2を導入し,胸部X線に基づく新たな報告生成の課題を訓練した。
- 参考スコア(独自算出の注目度): 39.7576903743788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiology reporting is a complex task that requires detailed image understanding, integration of multiple inputs, including comparison with prior imaging, and precise language generation. This makes it ideal for the development and use of generative multimodal models. Here, we extend report generation to include the localisation of individual findings on the image - a task we call grounded report generation. Prior work indicates that grounding is important for clarifying image understanding and interpreting AI-generated text. Therefore, grounded reporting stands to improve the utility and transparency of automated report drafting. To enable evaluation of grounded reporting, we propose a novel evaluation framework - RadFact - leveraging the reasoning capabilities of large language models (LLMs). RadFact assesses the factuality of individual generated sentences, as well as correctness of generated spatial localisations when present. We introduce MAIRA-2, a large multimodal model combining a radiology-specific image encoder with a LLM, and trained for the new task of grounded report generation on chest X-rays. MAIRA-2 uses more comprehensive inputs than explored previously: the current frontal image, the current lateral image, the prior frontal image and prior report, as well as the Indication, Technique and Comparison sections of the current report. We demonstrate that these additions significantly improve report quality and reduce hallucinations, establishing a new state of the art on findings generation (without grounding) on MIMIC-CXR while demonstrating the feasibility of grounded reporting as a novel and richer task.
- Abstract(参考訳): 放射線学報告は、詳細な画像理解、先行画像との比較を含む複数の入力の統合、正確な言語生成を必要とする複雑なタスクである。
これは、生成的マルチモーダルモデルの開発と利用に理想的である。
ここでは、画像上の個々の発見の局所化を含むレポート生成を拡張し、そのタスクをグラウンドドレポート生成と呼ぶ。
先行研究は、画像理解とAI生成テキストの解釈に基盤が重要であることを示唆している。
そのため,自動レポート作成の有用性と透明性の向上が期待できる。
そこで本稿では,大規模言語モデル(LLM)の推論機能を活用した新たな評価フレームワークRadFactを提案する。
RadFactは、個々の生成された文の事実性や、生成した空間的局所性の正しさを評価する。
放射線学固有の画像エンコーダをLCMと組み合わせた大規模マルチモーダルモデルMAIRA-2を導入し,胸部X線に基づく新たな報告生成の課題を訓練した。
MAIRA-2は前報よりも総合的な入力、すなわち、現在の正面画像、現在の横画像、前の正面画像、および前報、および現在の報告の表示、技術、比較セクションを使用する。
提案手法は,MIMIC-CXRをベースとせず,報告品質を向上し,幻覚の低減を図り,新鮮でリッチなタスクとしての基盤レポートの実現可能性を示した。
関連論文リスト
- SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。
既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。
本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-27T13:46:23Z) - TiBiX: Leveraging Temporal Information for Bidirectional X-ray and Report Generation [0.7381551917607596]
TiBiX:双方向X線とレポート生成のための時間情報を活用する。
双方向X線とレポート生成のための時間情報を活用するTiBiXを提案する。
論文 参考訳(メタデータ) (2024-03-20T07:00:03Z) - MAIRA-1: A specialised large multimodal model for radiology report generation [41.69727330319648]
胸部X線(CXR)から放射線学的レポートを生成するための放射線学固有のマルチモーダルモデルを提案する。
我々の研究は、学習済みの視覚エンコーダとアライメントすることで、大規模言語モデルにマルチモーダル機能を持たせることができるという考えに基づいている。
提案モデル(MAIRA-1)は,Vicuna-7Bに基づく微調整された大規模言語モデルと協調してCXR固有の画像エンコーダを利用して,最先端の品質のレポートを生成する。
論文 参考訳(メタデータ) (2023-11-22T19:45:40Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Automatic Radiology Report Generation by Learning with Increasingly Hard
Negatives [23.670280341513795]
本稿では,識別画像を学習し,特徴を報告する新しい枠組みを提案する。
それらが最も近い仲間、すなわち強陰性と区別される。
既存の医療報告生成モデルを簡単に改善するためのプラグインとして機能する。
論文 参考訳(メタデータ) (2023-05-11T23:12:13Z) - Multimodal Image-Text Matching Improves Retrieval-based Chest X-Ray
Report Generation [3.6664023341224827]
X-REM (Contrastive X-Ray Report Match) は、X-REM (X-REM) という新しい検索方式の放射線学レポート生成モジュールである。
X-REMは、胸部X線画像の類似度を測定するための画像テキストマッチングスコアと、レポート検索のための放射線診断レポートを使用する。
論文 参考訳(メタデータ) (2023-03-29T04:00:47Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。