論文の概要: 3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis
- arxiv url: http://arxiv.org/abs/2602.18064v1
- Date: Fri, 20 Feb 2026 08:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.27074
- Title: 3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis
- Title(参考訳): 3DMedAgent : 3次元医療分析における認識と認識の統一化
- Authors: Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin,
- Abstract要約: 3DMedAgentは、2D MLLMが3D特有の微調整なしで一般的な3DCT分析を行うことを可能にする統合エージェントである。
40以上のタスクにわたる実験では、3DMedAgentは一般、医療、および3D固有のMLLMよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 42.29123264398027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D CT analysis spans a continuum from low-level perception to high-level clinical understanding. Existing 3D-oriented analysis methods adopt either isolated task-specific modeling or task-agnostic end-to-end paradigms to produce one-hop outputs, impeding the systematic accumulation of perceptual evidence for downstream reasoning. In parallel, recent multimodal large language models (MLLMs) exhibit improved visual perception and can integrate visual and textual information effectively, yet their predominantly 2D-oriented designs fundamentally limit their ability to perceive and analyze volumetric medical data. To bridge this gap, we propose 3DMedAgent, a unified agent that enables 2D MLLMs to perform general 3D CT analysis without 3D-specific fine-tuning. 3DMedAgent coordinates heterogeneous visual and textual tools through a flexible MLLM agent, progressively decomposing complex 3D analysis into tractable subtasks that transition from global to regional views, from 3D volumes to informative 2D slices, and from visual evidence to structured textual representations. Central to this design, 3DMedAgent maintains a long-term structured memory that aggregates intermediate tool outputs and supports query-adaptive, evidence-driven multi-step reasoning. We further introduce the DeepChestVQA benchmark for evaluating unified perception-to-understanding capabilities in 3D thoracic imaging. Experiments across over 40 tasks demonstrate that 3DMedAgent consistently outperforms general, medical, and 3D-specific MLLMs, highlighting a scalable path toward general-purpose 3D clinical assistants.Code and data are available at \href{https://github.com/jinlab-imvr/3DMedAgent}{https://github.com/jinlab-imvr/3DMedAgent}.
- Abstract(参考訳): 3次元CT解析は,低レベルの知覚から高レベルの臨床的理解まで連続体を包含する。
既存の3D指向分析手法では、独立したタスク固有モデリングまたはタスクに依存しないエンドツーエンドのパラダイムを用いてワンホップ出力を生成しており、下流の推論に対する知覚的証拠の体系的な蓄積を妨げる。
並行して、近年のマルチモーダル大言語モデル (MLLM) では、視覚的知覚が向上し、視覚情報とテキスト情報を効果的に統合することができるが、主に2D指向の設計は、ボリューム医療データを知覚し分析する能力を根本的に制限している。
このギャップを埋めるために,2次元MLLMを3次元の微調整なしで汎用的な3次元CT解析を行うための統合エージェントである3DMedAgentを提案する。
3DMedAgentはフレキシブルMLLMエージェントを通じて異質な視覚的およびテキスト的ツールをコーディネートし、複雑な3D分析を、グローバルな視点から地域的な視点、三次元ボリュームから情報的な2Dスライス、そして視覚的エビデンスから構造化されたテキスト的表現へと段階的に分解する。
この設計の中心にある3DMedAgentは、中間ツール出力を集約し、クエリ適応的でエビデンス駆動のマルチステップ推論をサポートする長期的な構造化メモリを維持している。
さらに,3次元胸部画像における認識と理解の統一性を評価するために,DeepChestVQAベンチマークを導入する。
40以上のタスクにわたる実験により、3DMedAgentは、一般、医療、および3D特有のMLLMを一貫して上回り、汎用的な3D臨床アシスタントへのスケーラブルなパスを強調している。
関連論文リスト
- MedVL-SAM2: A unified 3D medical vision-language model for multimodal reasoning and prompt-driven segmentation [11.762545584252052]
本稿では,レポート生成,VQA,マルチパラダイムセグメンテーションをサポートする統合された3次元医療マルチモーダルモデルを提案する。
MedVL-SAM2は、画像レベルの推論とピクセルレベルの認識を3D医療画像用に調整された凝集性アーキテクチャによって統合する。
我々の統合アーキテクチャは、レポート生成、VQA、複数の3Dセグメンテーションタスクにまたがって最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2026-01-14T21:21:00Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Enhancing 3D Medical Image Understanding with Pretraining Aided by 2D Multimodal Large Language Models [5.020980730631682]
既存の3D医療畳み込みとトランスフォーマーベースの自己教師付き学習(SSL)手法は、しばしば深い意味理解を欠いている。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、テキスト記述による画像理解を強化するための有望なアプローチを提供する。
Med3DInsightは、3D画像エンコーダと2D MLLMを特別に設計された平面スライス対応トランスモジュールを介して統合する新しい事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-09-11T00:12:59Z) - MG-3D: Multi-Grained Knowledge-Enhanced 3D Medical Vision-Language Pre-training [7.968487067774351]
3次元医用画像解析は多くの臨床応用において重要である。
3次元医用画像解析では、大規模視覚言語による事前訓練がまだ検討されていない。
大規模データ(47.1K)に基づいて事前学習したMG-3Dを提案する。
論文 参考訳(メタデータ) (2024-12-08T09:45:59Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model [17.69323209661274]
デュアル3D-2Dエンコーダアーキテクチャを統合した3次元医療MLLMであるMed-2E3を提案する。
2次元特徴を効果的に集約するために,テキストガイド型インタースライス(TG-IS)スコアリングモジュールを設計する。
大規模でオープンソースの医療用マルチモーダルデータセットの実験は、TG-ISがタスク固有の注意分布を示すことを示した。
論文 参考訳(メタデータ) (2024-11-19T09:59:59Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [130.40123493752816]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - T3D: Advancing 3D Medical Vision-Language Pre-training by Learning Multi-View Visual Consistency [32.57915952175522]
3D医療ビジョン言語による事前トレーニングは、大規模で一般公開された3D医療画像レポートデータセットが欠如しているため、まだ探索されていない。
このギャップを埋めるために、最初の、そして最大の*public** 3Dボリュームレポートデータセットである*CT-3Dlots**を紹介します。
提案する**T3D*フレームワークは,単純なCLIPスタイルのアライメントを超えて,3次元医用画像の理解を促進する。
以上の結果から,T3D は既存の vSSL やマルチモーダル手法を一貫して上回り,ゼロショットや微調整能力に優れていた。
論文 参考訳(メタデータ) (2023-12-03T23:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。