論文の概要: TokenSeg: Efficient 3D Medical Image Segmentation via Hierarchical Visual Token Compression
- arxiv url: http://arxiv.org/abs/2601.04519v1
- Date: Thu, 08 Jan 2026 02:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.998019
- Title: TokenSeg: Efficient 3D Medical Image Segmentation via Hierarchical Visual Token Compression
- Title(参考訳): TokenSeg: 階層型ビジュアルトーケン圧縮による効率的な3次元医用画像セグメンテーション
- Authors: Sen Zeng, Hong Zhou, Zheng Zhu, Yang Liu,
- Abstract要約: TokenSegは、効率的な3D医療ボリュームセグメンテーションのための境界対応スパーストークン表現フレームワークである。
TokenSegは、不均一な解剖学的構造に対して、常に最適な性能を提供する。
- 参考スコア(独自算出の注目度): 30.331894334353038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Three-dimensional medical image segmentation is a fundamental yet computationally demanding task due to the cubic growth of voxel processing and the redundant computation on homogeneous regions. To address these limitations, we propose \textbf{TokenSeg}, a boundary-aware sparse token representation framework for efficient 3D medical volume segmentation. Specifically, (1) we design a \emph{multi-scale hierarchical encoder} that extracts 400 candidate tokens across four resolution levels to capture both global anatomical context and fine boundary details; (2) we introduce a \emph{boundary-aware tokenizer} that combines VQ-VAE quantization with importance scoring to select 100 salient tokens, over 60\% of which lie near tumor boundaries; and (3) we develop a \emph{sparse-to-dense decoder} that reconstructs full-resolution masks through token reprojection, progressive upsampling, and skip connections. Extensive experiments on a 3D breast DCE-MRI dataset comprising 960 cases demonstrate that TokenSeg achieves state-of-the-art performance with 94.49\% Dice and 89.61\% IoU, while reducing GPU memory and inference latency by 64\% and 68\%, respectively. To verify the generalization capability, our evaluations on MSD cardiac and brain MRI benchmark datasets demonstrate that TokenSeg consistently delivers optimal performance across heterogeneous anatomical structures. These results highlight the effectiveness of anatomically informed sparse representation for accurate and efficient 3D medical image segmentation.
- Abstract(参考訳): 3次元医用画像分割は、ボクセル処理の立方体成長と均質領域での冗長な計算により、基本的な計算に要求される課題である。
これらの制約に対処するために, 境界対応のスパーストークン表現フレームワークである \textbf{TokenSeg} を提案する。
具体的には,(1)大局的な解剖学的コンテキストと細かな境界の詳細の両方を捉えるために,400個の候補トークンを抽出する \emph{multi-scale hierarchical encoder} を設計し,(2) VQ-VAE量子化と重要なスコアを組み合わせて,腫瘍境界付近にある100個のサージェントトークンを選択する \emph{multi-scale hierarchical encoder} を設計し,(3) トークンリジェクション,プログレッシブアップサンプリング,コネクションを通じて全解像度マスクを再構築する \emph{sparse-to-dense decoder} を開発した。
960の症例からなる3D breast DCE-MRIデータセットの大規模な実験により、TokenSegは94.49\% Diceと89.61\% IoUで最先端のパフォーマンスを実現し、GPUメモリと推論遅延をそれぞれ64\%と68\%に削減した。
一般化能力を検証するため,MSD心磁図と脳MRIのベンチマークデータを用いて,TokenSegが異種解剖学的構造に対して常に最適な性能を発揮することを示した。
これらの結果から, 3次元画像分割における解剖学的情報を用いたスパース表現の有効性が示唆された。
関連論文リスト
- Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Hierarchical 3D Feature Learning for Pancreas Segmentation [11.588903060674344]
MRIとCTの両方から膵分画を自動化する3D完全畳み込み型深層ネットワークを提案する。
本モデルでは,Diceスコアが約88%と,既存のCT膵セグメンテーション法よりも優れていた。
さらなる制御実験により、達成された性能は、我々の3次元完全畳み込み深層ネットワークと階層的表現復号化の組み合わせによるものであることが示された。
論文 参考訳(メタデータ) (2021-09-03T09:27:07Z) - Fully Automated 3D Segmentation of MR-Imaged Calf Muscle Compartments:
Neighborhood Relationship Enhanced Fully Convolutional Network [6.597152960878372]
FilterNetは新しい完全畳み込みネットワーク(FCN)であり、個々のふくらはぎの筋肉の区画分割にエッジ対応の制約を埋め込む。
FCNは健常者10名, 疾患者30名のT1強調MRI像を4倍のクロスバリデーションで評価した。
論文 参考訳(メタデータ) (2020-06-21T22:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。