論文の概要: Argus: Benchmarking and Enhancing Vision-Language Models for 3D Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2406.07146v3
- Date: Tue, 25 Feb 2025 06:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:40.607172
- Title: Argus: Benchmarking and Enhancing Vision-Language Models for 3D Radiology Report Generation
- Title(参考訳): Argus: 3Dラジオロジーレポート生成のためのビジョンランゲージモデルのベンチマークと強化
- Authors: Che Liu, Zhongwei Wan, Yuqi Wang, Hui Shen, Haozhe Wang, Kangyu Zheng, Mi Zhang, Rossella Arcucci,
- Abstract要約: 3Dラジオグラフィーレポート生成(DRRG)の包括的なベンチマークは行われていない。
我々は、*CT-3DRRG*を計算し、3DRRG上でのVLM性能を評価するための堅牢で多様なベンチマークを確立した。
本稿では、3DRRGのための高性能なVLMを構築するための総合的なトレーニング手法を提案し、視覚エンコーダ事前学習戦略、視覚トークン圧縮、データとモデルスケールの影響などの重要な要素を探索する。
- 参考スコア(独自算出の注目度): 15.897686345011731
- License:
- Abstract: Automatic radiology report generation holds significant potential to streamline the labor-intensive process of report writing by radiologists, particularly for 3D radiographs such as CT scans. While CT scans are critical for clinical diagnostics, they remain less explored compared to 2D radiographs. To date, there has been no comprehensive benchmark for 3D radiograph report generation (3DRRG), nor sufficient investigation into the optimal training strategies for Vision Language Models (VLMs) in this context, particularly with respect to vision encoder choices, visual token compression, and model scaling. In this work, we make three key contributions. We curate **CT-3DRRG**, the largest **publicly** available 3D CT-report dataset, establishing a robust and diverse benchmark for evaluating VLM performance on 3DRRG. Furthermore, we propose a comprehensive training recipe for building high-performing VLMs for 3DRRG, exploring key factors such as vision encoder pretraining strategies, visual token compression, and the impact of data & model scale. Guided by these findings, we introduce **Argus**, a state-of-the-art family of VLMs that achieve superior performance across different model sizes and input 3D medical image resolutions, efficiently processing high-resolution 3D images up to $512 \times 512 \times 256$[^1].
- Abstract(参考訳): 自動ラジオグラフィーレポート生成は、特にCTスキャンなどの3Dラジオグラフィーにおいて、放射線学者によるレポート作成の労働集約的なプロセスの合理化に重要な可能性を秘めている。
CTスキャンは臨床診断に重要であるが、2Dラジオグラフィと比較すると調査は少ない。
これまでに3Dラジオグラフレポート生成(3DRRG)の包括的なベンチマークや、この文脈における視覚言語モデル(VLM)の最適なトレーニング戦略、特に視覚エンコーダの選択、視覚トークン圧縮、モデルスケーリングに関する十分な調査は行われていない。
この作業では,3つの重要なコントリビューションを行います。
我々は、*CT-3DRRG*を計算し、3DRRG上でのVLM性能を評価するための堅牢で多様なベンチマークを確立した。
さらに、3DRRGのための高性能なVLMを構築するための総合的なトレーニング手法を提案し、視覚エンコーダ事前学習戦略、視覚トークン圧縮、データとモデルスケールの影響などの重要な要素を探索する。
これらの知見に導かれた**Argus**は、異なるモデルサイズと入力3D画像解像度で優れたパフォーマンスを実現し、高解像度の3D画像を512 \times 512 \times 256$[^1]まで効率的に処理するVLMの最先端ファミリーである。
関連論文リスト
- Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation [42.13004422063442]
急性虚血性脳梗塞(AIS)は、時間的クリティカルな管理を必要とし、数時間の介入が遅れて、患者の不可逆的な障害につながる。
磁気共鳴画像(MRI)を用いた拡散強調画像(DWI)はAISの検出において重要な役割を担っているため,DWIからのAISの自動予測は臨床的に重要な課題となっている。
画像所見から最も関連性の高い臨床情報を含むテキストラジオグラフィー報告では, 従来のDWI-to-report 生成法では, 異なるモダリティのマッピングが困難であった。
論文 参考訳(メタデータ) (2024-11-23T08:18:55Z) - Resource-Efficient Medical Report Generation using Large Language Models [3.2627279988912194]
医療報告生成は胸部X線画像の放射線診断レポートを自動作成する作業である。
本稿では,医療報告生成のタスクに視覚対応大規模言語モデル(LLM)を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T05:08:18Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - AutoRG-Brain: Grounded Report Generation for Brain MRI [57.22149878985624]
放射線学者は、大量の画像を日々のベースで解釈し、対応するレポートを生成する責任を負う。
この要求される作業負荷は、人間のエラーのリスクを高め、治療の遅れ、医療費の増加、収益損失、運用上の不効率につながる可能性がある。
地盤自動報告生成(AutoRG)に関する一連の研究を開始した。
このシステムは、脳の構造の明細化、異常の局所化、そしてよく組織化された発見の生成をサポートする。
論文 参考訳(メタデータ) (2024-07-23T17:50:00Z) - X-Diffusion: Generating Detailed 3D MRI Volumes From a Single Image Using Cross-Sectional Diffusion Models [6.046082223332061]
X-拡散(X-Diffusion)は、空間領域入力から詳細な3次元MRIボリュームを再構成する新しい断面積拡散モデルである。
X-Diffusionの重要な側面は、MRIデータを横断的なトレーニングと推論の間、全体的な3Dボリュームとしてモデル化することである。
以上の結果から,X-Diffusionは定量精度(PSNR)に優れるだけでなく,重要な解剖学的特徴を保っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T14:53:07Z) - Super-resolution of biomedical volumes with 2D supervision [84.5255884646906]
超解像のための仮設スライス拡散は、生物学的標本のすべての空間次元にわたるデータ生成分布の固有同値性を利用する。
我々は,高解像度2次元画像の高速取得を特徴とするSliceRの組織学的刺激(SRH)への応用に着目する。
論文 参考訳(メタデータ) (2024-04-15T02:41:55Z) - CT2Rep: Automated Radiology Report Generation for 3D Medical Imaging [0.20754235913398283]
胸部CTを対象とする3次元医用画像のラジオグラフィーレポート作成法について紹介する。
比較手法が存在しないことから,医用画像における高度な3次元視覚エンコーダを用いたベースラインを構築し,本手法の有効性を実証する。
我々は,CT2Repをクロスアテンションベースのマルチモーダル融合モジュールと階層メモリで拡張し,縦型マルチモーダルデータの取り込みを可能にした。
論文 参考訳(メタデータ) (2024-03-11T15:17:45Z) - A unified 3D framework for Organs at Risk Localization and Segmentation
for Radiation Therapy Planning [56.52933974838905]
現在の医療ワークフローは、OAR(Organs-at-risk)のマニュアル記述を必要とする
本研究は,OARローカライゼーション・セグメンテーションのための統合された3Dパイプラインの導入を目的とする。
提案手法は医用画像に固有の3Dコンテキスト情報の活用を可能にする。
論文 参考訳(メタデータ) (2022-03-01T17:08:41Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。