論文の概要: 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2409.19330v1
- Date: Sat, 28 Sep 2024 12:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:58:48.296884
- Title: 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models
- Title(参考訳): 3D-CT-GPT:大規模視線モデルの統合による3次元放射線学レポートの作成
- Authors: Hao Chen, Wei Zhao, Yingli Li, Tianyang Zhong, Yisong Wang, Youlan Shang, Lei Guo, Junwei Han, Tianming Liu, Jun Liu, Tuo Zhang,
- Abstract要約: 本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 51.855377054763345
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Medical image analysis is crucial in modern radiological diagnostics, especially given the exponential growth in medical imaging data. The demand for automated report generation systems has become increasingly urgent. While prior research has mainly focused on using machine learning and multimodal language models for 2D medical images, the generation of reports for 3D medical images has been less explored due to data scarcity and computational complexities. This paper introduces 3D-CT-GPT, a Visual Question Answering (VQA)-based medical visual language model specifically designed for generating radiology reports from 3D CT scans, particularly chest CTs. Extensive experiments on both public and private datasets demonstrate that 3D-CT-GPT significantly outperforms existing methods in terms of report accuracy and quality. Although current methods are few, including the partially open-source CT2Rep and the open-source M3D, we ensured fair comparison through appropriate data conversion and evaluation methodologies. Experimental results indicate that 3D-CT-GPT enhances diagnostic accuracy and report coherence, establishing itself as a robust solution for clinical radiology report generation. Future work will focus on expanding the dataset and further optimizing the model to enhance its performance and applicability.
- Abstract(参考訳): 医用画像解析は、医用画像データの指数的増加を考えると、現代の放射線診断において重要である。
自動レポート生成システムへの需要がますます高まっている。
従来の研究では、主に2次元医用画像の機械学習とマルチモーダル言語モデルの使用に焦点が当てられていたが、データ不足と計算複雑性のため、3次元医用画像のレポートの生成はあまり検討されていない。
本稿では,3次元CTスキャン,特に胸部CTから放射線診断レポートを生成するために,VQAに基づく医用視覚言語モデルである3D-CT-GPTを紹介する。
3D-CT-GPTは,公開データセットとプライベートデータセットの両方での大規模な実験により,レポートの精度と品質において,既存の手法を著しく上回っていることが示された。
一部オープンソースCT2RepやオープンソースM3Dなど,現在の手法はほとんどないが,適切なデータ変換と評価手法による公正な比較を確実にする。
実験の結果, 3D-CT-GPTは診断精度とコヒーレンスを向上し, 臨床放射線学報告作成のための堅牢なソリューションとして確立した。
今後の作業は、データセットの拡大と、そのパフォーマンスと適用性を高めるために、モデルをさらに最適化することに集中する。
関連論文リスト
- E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model [23.56751925900571]
3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。
自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。
本研究では,3次元空間畳み込みを高精細画像の特徴の集約・投影に応用し,計算複雑性を低減した。
本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-18T06:31:40Z) - Benchmarking and Boosting Radiology Report Generation for 3D High-Resolution Medical Images [15.897686345011731]
大規模言語モデル(LLM)に基づく高分解能(HR)3Dボリュームの放射線学レポートを効率的に生成する新しいフレームワークを提案する。
具体的には、低解像度(LR)視覚トークンをクエリとして使用し、HRトークンから情報をマイニングし、詳細なHR情報を保存し、計算コストを削減する。
BIMCV-RGは、5,328 HRのボリュームとペアのレポートを持つ新しいデータセットで、3D HRの医療画像からレポートを生成するための最初のベンチマークを確立します。
論文 参考訳(メタデータ) (2024-06-11T10:45:59Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography [1.8424705673580284]
我々は3次元医用画像と対応するテキストレポートとをマッチングする最初のデータセットであるCT-RATEを紹介する。
我々はCTに焦点を当てたコントラスト言語画像事前学習フレームワークであるCT-CLIPを開発した。
我々は3次元胸部CTボリュームのための視覚言語基礎チャットモデルであるCT-CHATを作成する。
論文 参考訳(メタデータ) (2024-03-26T16:19:56Z) - CT2Rep: Automated Radiology Report Generation for 3D Medical Imaging [0.20754235913398283]
胸部CTを対象とする3次元医用画像のラジオグラフィーレポート作成法について紹介する。
比較手法が存在しないことから,医用画像における高度な3次元視覚エンコーダを用いたベースラインを構築し,本手法の有効性を実証する。
我々は,CT2Repをクロスアテンションベースのマルチモーダル融合モジュールと階層メモリで拡張し,縦型マルチモーダルデータの取り込みを可能にした。
論文 参考訳(メタデータ) (2024-03-11T15:17:45Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Perspective Projection-Based 3D CT Reconstruction from Biplanar X-rays [32.98966469644061]
我々は,X線を用いた新しいCT再構成フレームワークPerX2CTを提案する。
提案手法は,各座標に対して異なる特徴の組み合わせを提供し,モデルが3次元位置に関する情報を暗黙的に取得できるようにする。
論文 参考訳(メタデータ) (2023-03-09T14:45:25Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Automated Model Design and Benchmarking of 3D Deep Learning Models for
COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。
また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文 参考訳(メタデータ) (2021-01-14T03:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。