論文の概要: HSENet: Hybrid Spatial Encoding Network for 3D Medical Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2506.09634v1
- Date: Wed, 11 Jun 2025 11:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.899977
- Title: HSENet: Hybrid Spatial Encoding Network for 3D Medical Vision-Language Understanding
- Title(参考訳): HSENet:3次元医用ビジョンランゲージ理解のためのハイブリッド空間符号化ネットワーク
- Authors: Yanzhao Shi, Xiaodan Zhang, Junzhong Ji, Haoning Jiang, Chengxin Zheng, Yinong Wang, Liangqiong Qu,
- Abstract要約: 本稿では、3次元の視覚的手がかりを有効視知覚と投影によって活用し、正確で堅牢な視覚言語理解を実現する枠組みを提案する。
具体的には、HSENetは、グローバルなボリュームコンテキストと微細な解剖学的詳細の両方を知覚するために、デュアル3Dビジョンエンコーダを使用している。
また,高分解能な3次元空間領域をコンパクトな視覚的トークン集合に凝縮する効率的なマルチモーダルプロジェクタであるSpatial Packerを提案する。
- 参考スコア(独自算出の注目度): 11.482339306296204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated 3D CT diagnosis empowers clinicians to make timely, evidence-based decisions by enhancing diagnostic accuracy and workflow efficiency. While multimodal large language models (MLLMs) exhibit promising performance in visual-language understanding, existing methods mainly focus on 2D medical images, which fundamentally limits their ability to capture complex 3D anatomical structures. This limitation often leads to misinterpretation of subtle pathologies and causes diagnostic hallucinations. In this paper, we present Hybrid Spatial Encoding Network (HSENet), a framework that exploits enriched 3D medical visual cues by effective visual perception and projection for accurate and robust vision-language understanding. Specifically, HSENet employs dual-3D vision encoders to perceive both global volumetric contexts and fine-grained anatomical details, which are pre-trained by dual-stage alignment with diagnostic reports. Furthermore, we propose Spatial Packer, an efficient multimodal projector that condenses high-resolution 3D spatial regions into a compact set of informative visual tokens via centroid-based compression. By assigning spatial packers with dual-3D vision encoders, HSENet can seamlessly perceive and transfer hybrid visual representations to LLM's semantic space, facilitating accurate diagnostic text generation. Experimental results demonstrate that our method achieves state-of-the-art performance in 3D language-visual retrieval (39.85% of R@100, +5.96% gain), 3D medical report generation (24.01% of BLEU-4, +8.01% gain), and 3D visual question answering (73.60% of Major Class Accuracy, +1.99% gain), confirming its effectiveness. Our code is available at https://github.com/YanzhaoShi/HSENet.
- Abstract(参考訳): 自動3DCT診断は、診断精度とワークフロー効率を向上させることで、臨床医にタイムリーで証拠に基づく意思決定を可能にする。
マルチモーダル大規模言語モデル(MLLM)は視覚言語理解において有望な性能を示すが、既存の手法は主に2次元の医療画像に焦点を当てており、複雑な3次元解剖学的構造を捉える能力を根本的に制限している。
この制限はしばしば微妙な病理の誤解を招き、診断幻覚を引き起こす。
本稿では,高密度な3次元医用視覚手がかりを有効視知覚と投影により活用し,高精度で堅牢な視覚言語理解を実現するHSENetを提案する。
具体的には、HSENetは、二重ステージアライメントと診断報告によって事前訓練された、グローバルなボリュームコンテキストと微細な解剖学的詳細の両方を知覚するために、デュアル3Dビジョンエンコーダを使用している。
さらに,高分解能な3次元空間領域を,セントロイド圧縮による情報的視覚トークンのコンパクトな集合に凝縮する効率的なマルチモーダルプロジェクタであるSpatial Packerを提案する。
デュアル3Dビジョンエンコーダで空間パッカーを割り当てることで、HSENetはシームレスにハイブリッドな視覚表現をLLMのセマンティック空間に受け渡し、正確な診断テキスト生成を容易にする。
実験の結果,本手法は3次元言語視覚検索(R@100の39.85%,+5.96%ゲイン),3次元医療報告生成(BLEU-4の24.01%,+8.01%ゲイン),および3次元視覚質問応答(メジャークラスの73.60%,+1.99%ゲイン)において,その有効性を確認した。
私たちのコードはhttps://github.com/YanzhaoShi/HSENet.comで公開されています。
関連論文リスト
- VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis [6.464464511743737]
ビジョン言語モデル(VLM)は、2Dの医療画像解析において有望であるが、3Dに拡張することは依然として困難である。
Med3DVLMは3つの重要なイノベーションを通じてこれらの課題に対処するために設計された3D VLMである。
我々は,120,084個の医用画像に対して,放射線学報告とVQAデータを含むM3Dデータセットを用いて本モデルを評価した。
論文 参考訳(メタデータ) (2025-03-25T20:09:30Z) - Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model [16.93216342922561]
我々は、3Dエンコーダと2Dエンコーダを統合した3次元医用画像解析のための新しいMLLMであるMed-2E3を提案する。
より効果的に2D特徴を集約するために,スライス内容とタスク命令に基づいて各2Dスライスに注目したテキストガイド型インタースライス(TG-IS)スコアリングモジュールを設計する。
大規模でオープンソースの3D医療マルチモーダルベンチマークの実験では、Med-2E3がタスク固有の注意分布を示し、現在の最先端モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T09:59:59Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - T3D: Advancing 3D Medical Vision-Language Pre-training by Learning Multi-View Visual Consistency [32.57915952175522]
3D医療ビジョン言語による事前トレーニングは、大規模で一般公開された3D医療画像レポートデータセットが欠如しているため、まだ探索されていない。
このギャップを埋めるために、最初の、そして最大の*public** 3Dボリュームレポートデータセットである*CT-3Dlots**を紹介します。
提案する**T3D*フレームワークは,単純なCLIPスタイルのアライメントを超えて,3次元医用画像の理解を促進する。
以上の結果から,T3D は既存の vSSL やマルチモーダル手法を一貫して上回り,ゼロショットや微調整能力に優れていた。
論文 参考訳(メタデータ) (2023-12-03T23:03:22Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。