論文の概要: Johnson-Lindenstrauss Lemma Guided Network for Efficient 3D Medical Segmentation
- arxiv url: http://arxiv.org/abs/2509.22307v1
- Date: Fri, 26 Sep 2025 13:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.440803
- Title: Johnson-Lindenstrauss Lemma Guided Network for Efficient 3D Medical Segmentation
- Title(参考訳): Johnson-Lindenstrauss Lemma Guided Network for Efficient 3D Medical Segmentation
- Authors: Jinpeng Lu, Linghan Cai, Yinda Chen, Guo Tang, Songhan Jiang, Haoyuan Shi, Zhiwei Xiong,
- Abstract要約: 本研究では,高次元画像の特徴に基づいてフレームワークを再設計する方法について述べる。
私たちのアプローチであるVeloxSegは、デプロイ可能でデュアルストリームのCNN-Transformerアーキテクチャから始まります。
VeloxSegはDiceを26%改善し、GPUスループットを11倍、CPUを48倍向上させた。
- 参考スコア(独自算出の注目度): 42.23472421492995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lightweight 3D medical image segmentation remains constrained by a fundamental "efficiency / robustness conflict", particularly when processing complex anatomical structures and heterogeneous modalities. In this paper, we study how to redesign the framework based on the characteristics of high-dimensional 3D images, and explore data synergy to overcome the fragile representation of lightweight methods. Our approach, VeloxSeg, begins with a deployable and extensible dual-stream CNN-Transformer architecture composed of Paired Window Attention (PWA) and Johnson-Lindenstrauss lemma-guided convolution (JLC). For each 3D image, we invoke a "glance-and-focus" principle, where PWA rapidly retrieves multi-scale information, and JLC ensures robust local feature extraction with minimal parameters, significantly enhancing the model's ability to operate with low computational budget. Followed by an extension of the dual-stream architecture that incorporates modal interaction into the multi-scale image-retrieval process, VeloxSeg efficiently models heterogeneous modalities. Finally, Spatially Decoupled Knowledge Transfer (SDKT) via Gram matrices injects the texture prior extracted by a self-supervised network into the segmentation network, yielding stronger representations than baselines at no extra inference cost. Experimental results on multimodal benchmarks show that VeloxSeg achieves a 26% Dice improvement, alongside increasing GPU throughput by 11x and CPU by 48x. Codes are available at https://github.com/JinPLu/VeloxSeg.
- Abstract(参考訳): 軽量な3D画像分割は、特に複雑な解剖学的構造と不均一なモダリティを処理する場合、基本的な「効率/堅牢性衝突」によって制約される。
本稿では,高次元3次元画像の特徴に基づくフレームワークの再設計について検討し,軽量な手法の脆弱な表現を克服するためにデータシナジーを探索する。
我々のアプローチであるVeloxSegは、Paired Window Attention (PWA)とJohnson-Lindenstrauss lemma-guided Convolution (JLC)で構成される、デプロイ可能で拡張可能なCNN-Transformerアーキテクチャから始まります。
各3D画像に対して,PWAが高速にマルチスケール情報を取得し,JLCが最小パラメータでロバストな局所特徴抽出を保証し,計算予算の低さでモデルの動作能力を大幅に向上させる,"glance-and-focus"の原理を導出する。
マルチスケール画像検索プロセスにモーダル相互作用を組み込んだデュアルストリームアーキテクチャの拡張に追従して、VeloxSegは不均一なモーダルを効率的にモデル化する。
最後に, 空間的に分離された知識伝達(SDKT)を文法行列を用いて, 自己教師ネットワークによって抽出されたテクスチャをセグメンテーションネットワークに注入し, 余分な推論コストを伴わずにベースラインよりも強い表現を与える。
マルチモーダルベンチマークの実験結果は、VeloxSegが26%のDice改善を実現し、GPUスループットが11倍、CPUが48倍向上したことを示している。
コードはhttps://github.com/JinPLu/VeloxSeg.comで入手できる。
関連論文リスト
- MLRU++: Multiscale Lightweight Residual UNETR++ with Attention for Efficient 3D Medical Image Segmentation [3.014234061484863]
セグメント化精度と計算効率のバランスをとるために設計されたマルチスケール軽量Residual UNETR++アーキテクチャ。
4つの公開ベンチマークデータセットの実験は、MLRU++が最先端のパフォーマンスを達成することを示した。
MLRU++は, 3次元画像分割タスクに対して, 実用的で高性能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-22T00:30:44Z) - MSLAU-Net: A Hybird CNN-Transformer Network for Medical Image Segmentation [7.826754189244901]
CNNベースの手法とトランスフォーマーベースの手法の両方が、医用画像分割タスクにおいて顕著な成功を収めている。
両パラダイムの長所を統合した新しいハイブリッドCNN-Transformerアーキテクチャ MSLAU-Netを提案する。
提案したMSLAU-Netには,2つの重要なアイデアが組み込まれている。まず,医療画像からマルチスケール特徴を効率的に抽出する,マルチスケール線形注意(multi-Scale Linear Attention)が導入されている。
第二に、マルチレベル特徴集約を行い、空間分解能を復元するトップダウン特徴集約機構を採用する。
論文 参考訳(メタデータ) (2025-05-24T18:48:29Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - A Data-scalable Transformer for Medical Image Segmentation:
Architecture, Model Efficiency, and Benchmark [45.543140413399506]
MedFormerは、一般化可能な3次元医用画像セグメンテーションのために設計されたデータスケーリング可能なトランスフォーマーである。
提案手法には, 望ましい帰納バイアス, 線形複雑度を考慮した階層的モデリング, マルチスケール特徴融合の3つの要素が組み込まれている。
論文 参考訳(メタデータ) (2022-02-28T22:59:42Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。