論文の概要: Benchmarking and Boosting Radiology Report Generation for 3D High-Resolution Medical Images
- arxiv url: http://arxiv.org/abs/2406.07146v2
- Date: Wed, 12 Jun 2024 18:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 11:35:08.669070
- Title: Benchmarking and Boosting Radiology Report Generation for 3D High-Resolution Medical Images
- Title(参考訳): 3次元高分解能医用画像のベンチマークと放射線診断レポートの作成
- Authors: Che Liu, Zhongwei Wan, Yuqi Wang, Hui Shen, Haozhe Wang, Kangyu Zheng, Mi Zhang, Rossella Arcucci,
- Abstract要約: 大規模言語モデル(LLM)に基づく高分解能(HR)3Dボリュームの放射線学レポートを効率的に生成する新しいフレームワークを提案する。
具体的には、低解像度(LR)視覚トークンをクエリとして使用し、HRトークンから情報をマイニングし、詳細なHR情報を保存し、計算コストを削減する。
BIMCV-RGは、5,328 HRのボリュームとペアのレポートを持つ新しいデータセットで、3D HRの医療画像からレポートを生成するための最初のベンチマークを確立します。
- 参考スコア(独自算出の注目度): 15.897686345011731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic radiology report generation can significantly benefit the labor-intensive process of report writing by radiologists, especially for 3D radiographs like CT scans, which are crucial for broad clinical diagnostics yet underexplored compared to 2D radiographs. Existing methods often handle 3D volumes either slice-wise or with aggressive downsampling due to current GPU memory limitations, which results in a loss of the inherent 3D nature and critical details. To overcome these issues, we introduce a novel framework that efficiently and effectively generates radiology reports for high-resolution (HR) 3D volumes, based on large language models (LLMs). Specifically, our framework utilizes low-resolution (LR) visual tokens as queries to mine information from HR tokens, preserving detailed HR information while reducing computational costs by only processing HR informed LR visual queries. Further benefiting the field, we curate and release BIMCV-RG, a new dataset with 5,328 HR 3D volumes and paired reports, establishing the first benchmarks for report generation from 3D HR medical images. Our method consistently surpasses existing methods on this benchmark across three different settings: normal-resolution, high-resolution inputs, and zero-shot domain transfer, all at an acceptable computational cost, trainable on a single A100-80G.
- Abstract(参考訳): 自動放射線学レポート生成は、放射線医によるレポート作成の労働集約的なプロセス、特にCTスキャンなどの3Dラジオグラフィーにおいて有益である。
既存の手法では、現在のGPUメモリの制限のため、スライスワイズやアグレッシブなダウンサンプリングによって3Dボリュームを処理することが多い。
これらの問題を解決するために,大規模言語モデル(LLM)に基づく高分解能(HR)3Dボリュームの放射線学レポートを効率的かつ効果的に生成する新しいフレームワークを提案する。
具体的には、低解像度(LR)視覚トークンをクエリとして利用してHRトークンから情報をマイニングし、詳細なHR情報を保存し、HR情報LR視覚クエリのみを処理することで計算コストを削減している。
さらに,5,328 HR 3Dボリュームとペアレポートを備えた新たなデータセットである BIMCV-RG をキュレートしてリリースし,3D HR 医療画像からレポート生成のための最初のベンチマークを確立した。
提案手法は,標準解像度,高解像度入力,ゼロショットドメイン転送という3つの異なる設定で,A100-80Gでトレーニング可能な計算コストで,このベンチマークの既存手法を常に上回っている。
関連論文リスト
- Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation [42.13004422063442]
急性虚血性脳梗塞(AIS)は、時間的クリティカルな管理を必要とし、数時間の介入が遅れて、患者の不可逆的な障害につながる。
磁気共鳴画像(MRI)を用いた拡散強調画像(DWI)はAISの検出において重要な役割を担っているため,DWIからのAISの自動予測は臨床的に重要な課題となっている。
画像所見から最も関連性の高い臨床情報を含むテキストラジオグラフィー報告では, 従来のDWI-to-report 生成法では, 異なるモダリティのマッピングが困難であった。
論文 参考訳(メタデータ) (2024-11-23T08:18:55Z) - Resource-Efficient Medical Report Generation using Large Language Models [3.2627279988912194]
医療報告生成は胸部X線画像の放射線診断レポートを自動作成する作業である。
本稿では,医療報告生成のタスクに視覚対応大規模言語モデル(LLM)を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T05:08:18Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - AutoRG-Brain: Grounded Report Generation for Brain MRI [57.22149878985624]
放射線学者は、大量の画像を日々のベースで解釈し、対応するレポートを生成する責任を負う。
この要求される作業負荷は、人間のエラーのリスクを高め、治療の遅れ、医療費の増加、収益損失、運用上の不効率につながる可能性がある。
地盤自動報告生成(AutoRG)に関する一連の研究を開始した。
このシステムは、脳の構造の明細化、異常の局所化、そしてよく組織化された発見の生成をサポートする。
論文 参考訳(メタデータ) (2024-07-23T17:50:00Z) - Super-resolution of biomedical volumes with 2D supervision [84.5255884646906]
超解像のための仮設スライス拡散は、生物学的標本のすべての空間次元にわたるデータ生成分布の固有同値性を利用する。
我々は,高解像度2次元画像の高速取得を特徴とするSliceRの組織学的刺激(SRH)への応用に着目する。
論文 参考訳(メタデータ) (2024-04-15T02:41:55Z) - CT2Rep: Automated Radiology Report Generation for 3D Medical Imaging [0.20754235913398283]
胸部CTを対象とする3次元医用画像のラジオグラフィーレポート作成法について紹介する。
比較手法が存在しないことから,医用画像における高度な3次元視覚エンコーダを用いたベースラインを構築し,本手法の有効性を実証する。
我々は,CT2Repをクロスアテンションベースのマルチモーダル融合モジュールと階層メモリで拡張し,縦型マルチモーダルデータの取り込みを可能にした。
論文 参考訳(メタデータ) (2024-03-11T15:17:45Z) - SdCT-GAN: Reconstructing CT from Biplanar X-Rays with Self-driven
Generative Adversarial Networks [6.624839896733912]
本稿では,3次元CT画像の再構成のための自己駆動型生成対向ネットワークモデル(SdCT-GAN)を提案する。
識別器に新しいオートエンコーダ構造を導入することにより、画像の詳細により多くの注意を払っている。
LPIPS評価基準は,既存画像よりも微細な輪郭やテクスチャを定量的に評価できる。
論文 参考訳(メタデータ) (2023-09-10T08:16:02Z) - A unified 3D framework for Organs at Risk Localization and Segmentation
for Radiation Therapy Planning [56.52933974838905]
現在の医療ワークフローは、OAR(Organs-at-risk)のマニュアル記述を必要とする
本研究は,OARローカライゼーション・セグメンテーションのための統合された3Dパイプラインの導入を目的とする。
提案手法は医用画像に固有の3Dコンテキスト情報の活用を可能にする。
論文 参考訳(メタデータ) (2022-03-01T17:08:41Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。