論文の概要: CT-Agent: A Multimodal-LLM Agent for 3D CT Radiology Question Answering
- arxiv url: http://arxiv.org/abs/2505.16229v1
- Date: Thu, 22 May 2025 04:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.04745
- Title: CT-Agent: A Multimodal-LLM Agent for 3D CT Radiology Question Answering
- Title(参考訳): CT-Agent : マルチモーダルLLMによる3次元CTラジオグラフィー質問応答
- Authors: Yuren Mao, Wenyi Xu, Yuyang Qin, Yunjun Gao,
- Abstract要約: 放射線科医のCTスキャンにおける解剖学的領域に関する質問に答える視覚的質問応答システム(VQA)が必要不可欠である。
既存のVQAシステムは,(1)解剖学的複雑性によりCT画像の理解が困難になる; (2) 数百スライス間の空間的関係の把握が困難である,といった課題に対して,CTラジオロジー質問応答(CTQA)タスクを適切に処理することはできない。
本稿では,CTQAのためのマルチモーダルエージェントフレームワークであるCT-Agentを提案する。
- 参考スコア(独自算出の注目度): 23.158482226185217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computed Tomography (CT) scan, which produces 3D volumetric medical data that can be viewed as hundreds of cross-sectional images (a.k.a. slices), provides detailed anatomical information for diagnosis. For radiologists, creating CT radiology reports is time-consuming and error-prone. A visual question answering (VQA) system that can answer radiologists' questions about some anatomical regions on the CT scan and even automatically generate a radiology report is urgently needed. However, existing VQA systems cannot adequately handle the CT radiology question answering (CTQA) task for: (1) anatomic complexity makes CT images difficult to understand; (2) spatial relationship across hundreds slices is difficult to capture. To address these issues, this paper proposes CT-Agent, a multimodal agentic framework for CTQA. CT-Agent adopts anatomically independent tools to break down the anatomic complexity; furthermore, it efficiently captures the across-slice spatial relationship with a global-local token compression strategy. Experimental results on two 3D chest CT datasets, CT-RATE and RadGenome-ChestCT, verify the superior performance of CT-Agent.
- Abstract(参考訳): Computed Tomography (CT) スキャンは、数百の断面画像(またはスライス)と見ることができる3Dボリュームの医療データを生成し、詳細な解剖学的情報を提供する。
放射線学者にとって、CTラジオグラフィーレポートの作成には時間がかかり、エラーが発生しやすい。
放射線科医のCTスキャンにおける解剖学的領域に関する疑問に答えることができ、また、自動的に放射線学レポートを作成できる視覚的質問応答システム(VQA)が緊急に必要である。
しかし, 既存のVQAシステムでは, (1) 解剖学的複雑さによりCT画像の理解が困難になる; (2) 数百スライス間の空間的関係の把握が困難である,といった課題に対してCTラジオグラフィー質問応答 (CTQA) を適切に処理することはできない。
本稿では,CTQAのためのマルチモーダルエージェントフレームワークであるCT-Agentを提案する。
CT-Agentは解剖学的に独立したツールを用いて解剖学的複雑さを分解し、さらにグローバルな局所トークン圧縮戦略とスライス間の空間的関係を効率的に捉える。
CT-RATEとRadGenome-ChestCTの2つの3次元胸部CTデータセットの実験結果からCT-Agentの優れた性能が検証された。
関連論文リスト
- Imitating Radiological Scrolling: A Global-Local Attention Model for 3D Chest CT Volumes Multi-Label Anomaly Classification [0.0]
3次元CTスキャンのマルチラベル分類は、データの体積特性と検出すべき異常の多様性のために難しい課題である。
畳み込みニューラルネットワーク(CNN)に基づく既存のディープラーニング手法は、長距離依存を効果的に捉えるのに苦労する。
我々は,3次元CTスキャン解析において,放射線技師のスクロール挙動をエミュレートする新しいグローバルアテンションモデルCT-Scrollを提案する。
論文 参考訳(メタデータ) (2025-03-26T15:47:50Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography [10.110878689623961]
我々は3次元医用画像と対応するテキストレポートとをマッチングする最初のデータセットであるCT-RATEを紹介する。
我々はCTに焦点を当てたコントラスト言語画像事前学習フレームワークであるCT-CLIPを開発した。
我々は3次元胸部CTボリュームのための視覚言語基礎チャットモデルであるCT-CHATを作成する。
論文 参考訳(メタデータ) (2024-03-26T16:19:56Z) - COVIDx CT-3: A Large-scale, Multinational, Open-Source Benchmark Dataset
for Computer-aided COVID-19 Screening from Chest CT Images [82.74877848011798]
胸部CT画像から新型コロナウイルスの症例を検出するための大規模ベンチマークデータセットであるCOVIDx CT-3を紹介する。
COVIDx CT-3には、少なくとも17カ国で6,068人の患者から431,205個のCTスライスが含まれている。
我々は, COVIDx CT-3データセットのデータ多様性と潜在的なバイアスについて検討し, 地理的, 集団的不均衡について検討した。
論文 参考訳(メタデータ) (2022-06-07T06:35:48Z) - A unified 3D framework for Organs at Risk Localization and Segmentation
for Radiation Therapy Planning [56.52933974838905]
現在の医療ワークフローは、OAR(Organs-at-risk)のマニュアル記述を必要とする
本研究は,OARローカライゼーション・セグメンテーションのための統合された3Dパイプラインの導入を目的とする。
提案手法は医用画像に固有の3Dコンテキスト情報の活用を可能にする。
論文 参考訳(メタデータ) (2022-03-01T17:08:41Z) - XraySyn: Realistic View Synthesis From a Single Radiograph Through CT
Priors [118.27130593216096]
放射線写真は、X線を用いて患者の内部解剖を視覚化し、3D情報を2次元平面に投影する。
私たちの知る限りでは、ラジオグラフィビューの合成に関する最初の研究である。
本手法は,3次元空間におけるX線撮影の理解を得ることにより,地中骨ラベルを使わずに,X線撮影による骨抽出と骨抑制に応用できることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T05:08:53Z) - Deep Reinforcement Learning for Organ Localization in CT [59.23083161858951]
我々はCTにおける臓器局所化のための深層強化学習手法を提案する。
この研究において、人工エージェントは、その主張や誤りから学習することで、CT内の臓器の局所化を積極的に行う。
本手法は,任意の臓器をローカライズするためのプラグイン・アンド・プレイモジュールとして利用できる。
論文 参考訳(メタデータ) (2020-05-11T10:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。