論文の概要: OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis
- arxiv url: http://arxiv.org/abs/2602.16110v1
- Date: Wed, 18 Feb 2026 00:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.479016
- Title: OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis
- Title(参考訳): OmniCT:包括的CT解析のための統一スライスボリュームLVLMを目指して
- Authors: Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang, Jiang Liu, Yihan Xie, Mingjian Gao, Zhenxuan Fan, Zhaocheng Li, Sijing Li, Zhongle Xie, Peng LU, Yueting Zhuang, Yingda Xia, Ling Zhang, Beng Chin Ooi,
- Abstract要約: 臨床解釈はスライス駆動の局所特徴と体積駆動の空間表現の両方に依存している。
既存のLVLM(Large Vision-Language Models)は、CTスライスとボリューム理解で断片化されている。
我々は,CTシナリオのための強力な統合スライスボリュームLVLMであるOmniCTを提案する。
- 参考スコア(独自算出の注目度): 53.01523944168442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computed Tomography (CT) is one of the most widely used and diagnostically information-dense imaging modalities, covering critical organs such as the heart, lungs, liver, and colon. Clinical interpretation relies on both slice-driven local features (e.g., sub-centimeter nodules, lesion boundaries) and volume-driven spatial representations (e.g., tumor infiltration, inter-organ anatomical relations). However, existing Large Vision-Language Models (LVLMs) remain fragmented in CT slice versus volumetric understanding: slice-driven LVLMs show strong generalization but lack cross-slice spatial consistency, while volume-driven LVLMs explicitly capture volumetric semantics but suffer from coarse granularity and poor compatibility with slice inputs. The absence of a unified modeling paradigm constitutes a major bottleneck for the clinical translation of medical LVLMs. We present OmniCT, a powerful unified slice-volume LVLM for CT scenarios, which makes three contributions: (i) Spatial Consistency Enhancement (SCE): volumetric slice composition combined with tri-axial positional embedding that introduces volumetric consistency, and an MoE hybrid projection enables efficient slice-volume adaptation; (ii) Organ-level Semantic Enhancement (OSE): segmentation and ROI localization explicitly align anatomical regions, emphasizing lesion- and organ-level semantics; (iii) MedEval-CT: the largest slice-volume CT dataset and hybrid benchmark integrates comprehensive metrics for unified evaluation. OmniCT consistently outperforms existing methods with a substantial margin across diverse clinical tasks and satisfies both micro-level detail sensitivity and macro-level spatial reasoning. More importantly, it establishes a new paradigm for cross-modal medical imaging understanding.
- Abstract(参考訳): CT(Computed Tomography)は、心臓、肺、肝臓、結腸などの重要な臓器を網羅する、最も広く使われ、診断に有用な画像モダリティの1つである。
臨床的解釈は、スライス駆動の局所的特徴(例えば、センチメートル以下の結節、病変の境界)と体積駆動の空間的表現(例えば、腫瘍浸潤、組織間解剖学的関係)の両方に依存している。
しかし、既存のLVLM(Large Vision-Language Models)はCTスライスとボリューム理解において断片化され続けており、スライス駆動のLVLMは強力な一般化を示すが、スライス駆動のLVLMは空間的整合性が欠如している。
統一モデリングパラダイムの欠如は、医療用LVLMの翻訳における大きなボトルネックとなっている。
我々は,CTシナリオのための強力な統合スライスボリュームLVLMであるOmniCTを提示する。
(i)空間整合性向上(SCE) 容積スライス合成と体積整合性を導入した3軸位置埋め込み、MoEハイブリッドプロジェクションにより効率的なスライス体積適応が可能。
(ii)臓器レベルでのセマンティックエンハンスメント(OSE) 分節とROIの局在は、解剖学的領域を明確に整列し、病変と臓器レベルのセマンティクスを強調する。
(iii)MedEval-CT:最大のスライスボリュームCTデータセットとハイブリッドベンチマークは統合評価のための総合的なメトリクスを統合する。
OmniCTは、様々な臨床課題にまたがる既存の手法よりも一貫して優れており、マイクロレベルの詳細感度とマクロレベルの空間的推論の両方を満足している。
さらに重要なのは、クロスモーダルな医療画像理解のための新しいパラダイムを確立することだ。
関連論文リスト
- Deep-Learning Atlas Registration for Melanoma Brain Metastases: Preserving Pathology While Enabling Cohort-Level Analyses [0.7969462887653364]
メラノーマ脳転移(MBM)は一般的で空間的に不均一な病変である。
本稿では、個々の病理脳を共通のアトラスに整列させる変形可能な登録フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-13T13:43:57Z) - Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Multimodal Fusion at Three Tiers: Physics-Driven Data Generation and Vision-Language Guidance for Brain Tumor Segmentation [8.695435245976482]
本稿では,脳腫瘍の正確なセグメンテーションを実現する3層融合アーキテクチャを提案する。
この方法は、画素、特徴、意味レベルで情報を段階的に処理する。
我々は,脳腫瘍(BraTS)2020,2021,2023データセットの検証を行った。
論文 参考訳(メタデータ) (2025-07-14T06:32:59Z) - MOSAIC: A Multi-View 2.5D Organ Slice Selector with Cross-Attentional Reasoning for Anatomically-Aware CT Localization in Medical Organ Segmentation [0.8747606955991707]
既存の3Dセグメンテーションアプローチは計算的かつメモリ集約的であり、多くの場合、多くの解剖学的に無関係なスライスを含む全ボリュームを処理する。
セグメント化に先立って入力量を削減できる新しい解剖学的スライスセレクタパイプラインを提案する。
提案モデルでは, 構造的関連性の高いスライスを選択的に保持する多視点表現を前提として, 解剖学的局所化の「専門家」として機能する。
論文 参考訳(メタデータ) (2025-05-15T19:32:28Z) - Mask-Enhanced Segment Anything Model for Tumor Lesion Semantic Segmentation [48.107348956719775]
Mask-Enhanced SAM (M-SAM) は, 腫瘍の3次元セグメント化に適した革新的なアーキテクチャである。
本稿では,M-SAM内におけるMask-Enhanced Adapter (MEA) を提案する。
我々のM-SAMは高いセグメンテーション精度を達成し、またロバストな一般化を示す。
論文 参考訳(メタデータ) (2024-03-09T13:37:02Z) - Large-Kernel Attention for 3D Medical Image Segmentation [14.76728117630242]
本稿では,多臓器分割と腫瘍分割を正確に行うために,新しいLKアテンションモジュールを提案する。
畳み込みと自己注意の利点は、局所的な文脈情報、長距離依存、チャネル適応を含むLKアテンションモジュールで組み合わせられる。
モジュールはまた、計算コストを最適化するためにLK畳み込みを分解し、U-NetのようなFCNに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2022-07-19T16:32:55Z) - Superficial White Matter Analysis: An Efficient Point-cloud-based Deep
Learning Framework with Supervised Contrastive Learning for Consistent
Tractography Parcellation across Populations and dMRI Acquisitions [68.41088365582831]
ホワイトマターパーセレーション(White matter parcellation)は、トラクトグラフィーをクラスタまたは解剖学的に意味のあるトラクトに分類する。
ほとんどのパーセレーション法はディープホワイトマター(DWM)にフォーカスするが、その複雑さのため表面ホワイトマター(SWM)に対処する手法は少ない。
本稿では,2段階の深層学習に基づく新しいフレームワークであるSuperficial White Matter Analysis (SupWMA)を提案する。
論文 参考訳(メタデータ) (2022-07-18T23:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。