論文の概要: OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis
- arxiv url: http://arxiv.org/abs/2602.16110v1
- Date: Wed, 18 Feb 2026 00:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.479016
- Title: OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis
- Title(参考訳): OmniCT:包括的CT解析のための統一スライスボリュームLVLMを目指して
- Authors: Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang, Jiang Liu, Yihan Xie, Mingjian Gao, Zhenxuan Fan, Zhaocheng Li, Sijing Li, Zhongle Xie, Peng LU, Yueting Zhuang, Yingda Xia, Ling Zhang, Beng Chin Ooi,
- Abstract要約: 臨床解釈はスライス駆動の局所特徴と体積駆動の空間表現の両方に依存している。
既存のLVLM(Large Vision-Language Models)は、CTスライスとボリューム理解で断片化されている。
我々は,CTシナリオのための強力な統合スライスボリュームLVLMであるOmniCTを提案する。
- 参考スコア(独自算出の注目度): 53.01523944168442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computed Tomography (CT) is one of the most widely used and diagnostically information-dense imaging modalities, covering critical organs such as the heart, lungs, liver, and colon. Clinical interpretation relies on both slice-driven local features (e.g., sub-centimeter nodules, lesion boundaries) and volume-driven spatial representations (e.g., tumor infiltration, inter-organ anatomical relations). However, existing Large Vision-Language Models (LVLMs) remain fragmented in CT slice versus volumetric understanding: slice-driven LVLMs show strong generalization but lack cross-slice spatial consistency, while volume-driven LVLMs explicitly capture volumetric semantics but suffer from coarse granularity and poor compatibility with slice inputs. The absence of a unified modeling paradigm constitutes a major bottleneck for the clinical translation of medical LVLMs. We present OmniCT, a powerful unified slice-volume LVLM for CT scenarios, which makes three contributions: (i) Spatial Consistency Enhancement (SCE): volumetric slice composition combined with tri-axial positional embedding that introduces volumetric consistency, and an MoE hybrid projection enables efficient slice-volume adaptation; (ii) Organ-level Semantic Enhancement (OSE): segmentation and ROI localization explicitly align anatomical regions, emphasizing lesion- and organ-level semantics; (iii) MedEval-CT: the largest slice-volume CT dataset and hybrid benchmark integrates comprehensive metrics for unified evaluation. OmniCT consistently outperforms existing methods with a substantial margin across diverse clinical tasks and satisfies both micro-level detail sensitivity and macro-level spatial reasoning. More importantly, it establishes a new paradigm for cross-modal medical imaging understanding.
- Abstract(参考訳): CT(Computed Tomography)は、心臓、肺、肝臓、結腸などの重要な臓器を網羅する、最も広く使われ、診断に有用な画像モダリティの1つである。
臨床的解釈は、スライス駆動の局所的特徴(例えば、センチメートル以下の結節、病変の境界)と体積駆動の空間的表現(例えば、腫瘍浸潤、組織間解剖学的関係)の両方に依存している。
しかし、既存のLVLM(Large Vision-Language Models)はCTスライスとボリューム理解において断片化され続けており、スライス駆動のLVLMは強力な一般化を示すが、スライス駆動のLVLMは空間的整合性が欠如している。
統一モデリングパラダイムの欠如は、医療用LVLMの翻訳における大きなボトルネックとなっている。
我々は,CTシナリオのための強力な統合スライスボリュームLVLMであるOmniCTを提示する。
(i)空間整合性向上(SCE) 容積スライス合成と体積整合性を導入した3軸位置埋め込み、MoEハイブリッドプロジェクションにより効率的なスライス体積適応が可能。
(ii)臓器レベルでのセマンティックエンハンスメント(OSE) 分節とROIの局在は、解剖学的領域を明確に整列し、病変と臓器レベルのセマンティクスを強調する。
(iii)MedEval-CT:最大のスライスボリュームCTデータセットとハイブリッドベンチマークは統合評価のための総合的なメトリクスを統合する。
OmniCTは、様々な臨床課題にまたがる既存の手法よりも一貫して優れており、マイクロレベルの詳細感度とマクロレベルの空間的推論の両方を満足している。
さらに重要なのは、クロスモーダルな医療画像理解のための新しいパラダイムを確立することだ。
関連論文リスト
- Deep-Learning Atlas Registration for Melanoma Brain Metastases: Preserving Pathology While Enabling Cohort-Level Analyses [0.7969462887653364]
メラノーマ脳転移(MBM)は一般的で空間的に不均一な病変である。
本稿では、個々の病理脳を共通のアトラスに整列させる変形可能な登録フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-13T13:43:57Z) - Zero-shot System for Automatic Body Region Detection for Volumetric CT and MR Images [0.0]
我々は,CTとMR画像の身体領域検出を,大規模な事前学習基礎モデルに埋め込まれた知識を用いて,完全にゼロショットで行うことができるかどうかを検討する。
本研究では,(1)セグメンテーション駆動型ルールベースシステム,(2)放射線技師定義規則で導かれるマルチモーダル大言語モデル,(3)視覚入力と明確な解剖学的証拠を組み合わせたセグメンテーション対応MLLMの3つのパイプラインを提案し,体系的に評価する。
解剖学的領域ラベルを手作業で検証した887個の異種CTおよびMRスキャンで評価した。
論文 参考訳(メタデータ) (2026-02-09T14:26:24Z) - Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Multimodal Fusion at Three Tiers: Physics-Driven Data Generation and Vision-Language Guidance for Brain Tumor Segmentation [8.695435245976482]
本稿では,脳腫瘍の正確なセグメンテーションを実現する3層融合アーキテクチャを提案する。
この方法は、画素、特徴、意味レベルで情報を段階的に処理する。
我々は,脳腫瘍(BraTS)2020,2021,2023データセットの検証を行った。
論文 参考訳(メタデータ) (2025-07-14T06:32:59Z) - MOSAIC: A Multi-View 2.5D Organ Slice Selector with Cross-Attentional Reasoning for Anatomically-Aware CT Localization in Medical Organ Segmentation [0.8747606955991707]
既存の3Dセグメンテーションアプローチは計算的かつメモリ集約的であり、多くの場合、多くの解剖学的に無関係なスライスを含む全ボリュームを処理する。
セグメント化に先立って入力量を削減できる新しい解剖学的スライスセレクタパイプラインを提案する。
提案モデルでは, 構造的関連性の高いスライスを選択的に保持する多視点表現を前提として, 解剖学的局所化の「専門家」として機能する。
論文 参考訳(メタデータ) (2025-05-15T19:32:28Z) - Mask-Enhanced Segment Anything Model for Tumor Lesion Semantic Segmentation [48.107348956719775]
Mask-Enhanced SAM (M-SAM) は, 腫瘍の3次元セグメント化に適した革新的なアーキテクチャである。
本稿では,M-SAM内におけるMask-Enhanced Adapter (MEA) を提案する。
我々のM-SAMは高いセグメンテーション精度を達成し、またロバストな一般化を示す。
論文 参考訳(メタデータ) (2024-03-09T13:37:02Z) - Large-Kernel Attention for 3D Medical Image Segmentation [14.76728117630242]
本稿では,多臓器分割と腫瘍分割を正確に行うために,新しいLKアテンションモジュールを提案する。
畳み込みと自己注意の利点は、局所的な文脈情報、長距離依存、チャネル適応を含むLKアテンションモジュールで組み合わせられる。
モジュールはまた、計算コストを最適化するためにLK畳み込みを分解し、U-NetのようなFCNに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2022-07-19T16:32:55Z) - Superficial White Matter Analysis: An Efficient Point-cloud-based Deep
Learning Framework with Supervised Contrastive Learning for Consistent
Tractography Parcellation across Populations and dMRI Acquisitions [68.41088365582831]
ホワイトマターパーセレーション(White matter parcellation)は、トラクトグラフィーをクラスタまたは解剖学的に意味のあるトラクトに分類する。
ほとんどのパーセレーション法はディープホワイトマター(DWM)にフォーカスするが、その複雑さのため表面ホワイトマター(SWM)に対処する手法は少ない。
本稿では,2段階の深層学習に基づく新しいフレームワークであるSuperficial White Matter Analysis (SupWMA)を提案する。
論文 参考訳(メタデータ) (2022-07-18T23:07:53Z) - Decoupled Pyramid Correlation Network for Liver Tumor Segmentation from
CT images [22.128902125820193]
Decoupled Pyramid correlation Network (DPC-Net)を提案する。
注意機構を利用して、FCNに埋め込まれた低レベルの特徴と高レベルの特徴をフル活用し、肝腫瘍を分節する。
DSCは96.2%、ASSDは1.636mmで肝臓セグメンテーションが可能である。
論文 参考訳(メタデータ) (2022-05-26T07:31:29Z) - Incremental Cross-view Mutual Distillation for Self-supervised Medical
CT Synthesis [88.39466012709205]
本稿では,スライス間の分解能を高めるために,新しい医療スライスを構築した。
臨床実践において, 根本・中間医療スライスは常に欠落していることを考慮し, 相互蒸留の段階的相互蒸留戦略を導入する。
提案手法は,最先端のアルゴリズムよりも明確なマージンで優れる。
論文 参考訳(メタデータ) (2021-12-20T03:38:37Z) - Symmetry-Enhanced Attention Network for Acute Ischemic Infarct
Segmentation with Non-Contrast CT Images [50.55978219682419]
急性虚血性梗塞セグメンテーションのための対称性増強型注意ネットワーク(SEAN)を提案する。
提案するネットワークは、入力されたCT画像を、脳組織が左右対称な標準空間に自動的に変換する。
提案したSEANは、ダイス係数と梗塞局所化の両方の観点から、対称性に基づく最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-10-11T07:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。