Fugu-MT 論文翻訳(概要): Benchmarking and Boosting Radiology Report Generation for 3D High-Resolution Medical Images

論文の概要: Benchmarking and Boosting Radiology Report Generation for 3D High-Resolution Medical Images

arxiv url: http://arxiv.org/abs/2406.07146v2
Date: Wed, 12 Jun 2024 18:00:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 11:35:08.669070
Title: Benchmarking and Boosting Radiology Report Generation for 3D High-Resolution Medical Images
Title（参考訳）: 3次元高分解能医用画像のベンチマークと放射線診断レポートの作成
Authors: Che Liu, Zhongwei Wan, Yuqi Wang, Hui Shen, Haozhe Wang, Kangyu Zheng, Mi Zhang, Rossella Arcucci,
Abstract要約: 大規模言語モデル(LLM)に基づく高分解能(HR)3Dボリュームの放射線学レポートを効率的に生成する新しいフレームワークを提案する。具体的には、低解像度(LR)視覚トークンをクエリとして使用し、HRトークンから情報をマイニングし、詳細なHR情報を保存し、計算コストを削減する。 BIMCV-RGは、5,328 HRのボリュームとペアのレポートを持つ新しいデータセットで、3D HRの医療画像からレポートを生成するための最初のベンチマークを確立します。
参考スコア（独自算出の注目度）: 15.897686345011731
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic radiology report generation can significantly benefit the labor-intensive process of report writing by radiologists, especially for 3D radiographs like CT scans, which are crucial for broad clinical diagnostics yet underexplored compared to 2D radiographs. Existing methods often handle 3D volumes either slice-wise or with aggressive downsampling due to current GPU memory limitations, which results in a loss of the inherent 3D nature and critical details. To overcome these issues, we introduce a novel framework that efficiently and effectively generates radiology reports for high-resolution (HR) 3D volumes, based on large language models (LLMs). Specifically, our framework utilizes low-resolution (LR) visual tokens as queries to mine information from HR tokens, preserving detailed HR information while reducing computational costs by only processing HR informed LR visual queries. Further benefiting the field, we curate and release BIMCV-RG, a new dataset with 5,328 HR 3D volumes and paired reports, establishing the first benchmarks for report generation from 3D HR medical images. Our method consistently surpasses existing methods on this benchmark across three different settings: normal-resolution, high-resolution inputs, and zero-shot domain transfer, all at an acceptable computational cost, trainable on a single A100-80G.
Abstract（参考訳）: 自動放射線学レポート生成は、放射線医によるレポート作成の労働集約的なプロセス、特にCTスキャンなどの3Dラジオグラフィーにおいて有益である。既存の手法では、現在のGPUメモリの制限のため、スライスワイズやアグレッシブなダウンサンプリングによって3Dボリュームを処理することが多い。これらの問題を解決するために,大規模言語モデル(LLM)に基づく高分解能(HR)3Dボリュームの放射線学レポートを効率的かつ効果的に生成する新しいフレームワークを提案する。具体的には、低解像度(LR)視覚トークンをクエリとして利用してHRトークンから情報をマイニングし、詳細なHR情報を保存し、HR情報LR視覚クエリのみを処理することで計算コストを削減している。さらに,5,328 HR 3Dボリュームとペアレポートを備えた新たなデータセットである BIMCV-RG をキュレートしてリリースし,3D HR 医療画像からレポート生成のための最初のベンチマークを確立した。提案手法は,標準解像度,高解像度入力,ゼロショットドメイン転送という3つの異なる設定で,A100-80Gでトレーニング可能な計算コストで,このベンチマークの既存手法を常に上回っている。

関連論文リスト

Triad: Vision Foundation Model for 3D Magnetic Resonance Imaging [3.7942449131350413]
3次元MRIの視覚基礎モデルであるTriadを提案する。 Triadは131,170個のMRIボリュームから堅牢な表現を学ぶために広く使われているオートエンコーダアーキテクチャを採用している。臓器・腫瘍区分,臓器・癌分類,医用画像登録という3つの課題にまたがってTriadを評価した。
論文参考訳（メタデータ） (2025-02-19T19:31:52Z)
Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation [42.13004422063442]
急性虚血性脳梗塞(AIS)は、時間的クリティカルな管理を必要とし、数時間の介入が遅れて、患者の不可逆的な障害につながる。磁気共鳴画像(MRI)を用いた拡散強調画像(DWI)はAISの検出において重要な役割を担っているため,DWIからのAISの自動予測は臨床的に重要な課題となっている。画像所見から最も関連性の高い臨床情報を含むテキストラジオグラフィー報告では, 従来のDWI-to-report 生成法では, 異なるモダリティのマッピングが困難であった。
論文参考訳（メタデータ） (2024-11-23T08:18:55Z)
Resource-Efficient Medical Report Generation using Large Language Models [3.2627279988912194]
医療報告生成は胸部X線画像の放射線診断レポートを自動作成する作業である。本稿では,医療報告生成のタスクに視覚対応大規模言語モデル(LLM)を活用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-21T05:08:18Z)
E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model [23.56751925900571]
3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。本研究では,3次元空間畳み込みを高精細画像の特徴の集約・投影に応用し,計算複雑性を低減した。本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。
論文参考訳（メタデータ） (2024-10-18T06:31:40Z)
3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-09-28T12:31:07Z)
AutoRG-Brain: Grounded Report Generation for Brain MRI [57.22149878985624]
放射線学者は、大量の画像を日々のベースで解釈し、対応するレポートを生成する責任を負う。この要求される作業負荷は、人間のエラーのリスクを高め、治療の遅れ、医療費の増加、収益損失、運用上の不効率につながる可能性がある。地盤自動報告生成(AutoRG)に関する一連の研究を開始した。このシステムは、脳の構造の明細化、異常の局所化、そしてよく組織化された発見の生成をサポートする。
論文参考訳（メタデータ） (2024-07-23T17:50:00Z)
Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks [5.806035963947936]
拡散型3次元視覚変換器(Diff3Dformer)を提案する。本手法は, 肺CTの2種類の小さなデータセットに対して, 改良された性能を示す。
論文参考訳（メタデータ） (2024-06-24T23:23:18Z)
CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文参考訳（メタデータ） (2024-04-23T17:59:01Z)
Super-resolution of biomedical volumes with 2D supervision [84.5255884646906]
超解像のための仮設スライス拡散は、生物学的標本のすべての空間次元にわたるデータ生成分布の固有同値性を利用する。我々は,高解像度2次元画像の高速取得を特徴とするSliceRの組織学的刺激(SRH)への応用に着目する。
論文参考訳（メタデータ） (2024-04-15T02:41:55Z)
CT2Rep: Automated Radiology Report Generation for 3D Medical Imaging [0.20754235913398283]
胸部CTを対象とする3次元医用画像のラジオグラフィーレポート作成法について紹介する。比較手法が存在しないことから,医用画像における高度な3次元視覚エンコーダを用いたベースラインを構築し,本手法の有効性を実証する。我々は,CT2Repをクロスアテンションベースのマルチモーダル融合モジュールと階層メモリで拡張し,縦型マルチモーダルデータの取り込みを可能にした。
論文参考訳（メタデータ） (2024-03-11T15:17:45Z)
MinD-3D: Reconstruct High-quality 3D objects in Human Brain [50.534007259536715]
Recon3DMindは、fMRI(Functional Magnetic Resonance Imaging)信号から3次元視覚を再構成するための革新的なタスクである。このデータセットは14人の参加者のデータを含み、3Dオブジェクトの360度ビデオが特徴である。我々は,脳の3次元視覚情報をfMRI信号から復号化するための,新規で効果的な3段階フレームワークMinD-3Dを提案する。
論文参考訳（メタデータ） (2023-12-12T18:21:36Z)
SdCT-GAN: Reconstructing CT from Biplanar X-Rays with Self-driven Generative Adversarial Networks [6.624839896733912]
本稿では,3次元CT画像の再構成のための自己駆動型生成対向ネットワークモデル(SdCT-GAN)を提案する。識別器に新しいオートエンコーダ構造を導入することにより、画像の詳細により多くの注意を払っている。 LPIPS評価基準は,既存画像よりも微細な輪郭やテクスチャを定量的に評価できる。
論文参考訳（メタデータ） (2023-09-10T08:16:02Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
A unified 3D framework for Organs at Risk Localization and Segmentation for Radiation Therapy Planning [56.52933974838905]
現在の医療ワークフローは、OAR(Organs-at-risk)のマニュアル記述を必要とする本研究は,OARローカライゼーション・セグメンテーションのための統合された3Dパイプラインの導入を目的とする。提案手法は医用画像に固有の3Dコンテキスト情報の活用を可能にする。
論文参考訳（メタデータ） (2022-03-01T17:08:41Z)
Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文参考訳（メタデータ） (2021-10-25T14:15:57Z)
Automated Model Design and Benchmarking of 3D Deep Learning Models for COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文参考訳（メタデータ） (2021-01-14T03:45:01Z)
Hierarchical Amortized Training for Memory-efficient High Resolution 3D GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。トレーニングと推論の異なる構成を使用することで、この目標を達成する。 3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文参考訳（メタデータ） (2020-08-05T02:33:04Z)
Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。 ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文参考訳（メタデータ） (2020-06-06T01:00:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。