論文の概要: No More Sliding Window: Efficient 3D Medical Image Segmentation with Differentiable Top-k Patch Sampling
- arxiv url: http://arxiv.org/abs/2501.10814v2
- Date: Thu, 06 Mar 2025 11:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:56:44.695377
- Title: No More Sliding Window: Efficient 3D Medical Image Segmentation with Differentiable Top-k Patch Sampling
- Title(参考訳): スライディングウィンドウは不要:Top-k Patch Smplingによる3次元医用画像分割の効率化
- Authors: Young Seok Jeon, Hongfei Yang, Huazhu Fu, Mengling Feng,
- Abstract要約: No-More-Sliding-Window (NMSW)は、3Dセグメンテーションのための新しいエンドツーエンドのトレーニング可能なフレームワークである。
NMSWは、最も関連するパッチのみを選択的にサンプリングするために、差別化可能なTop-kモジュールを使用している。
H100 GPUでは9.1倍高速な推論、Xeon Gold CPUでは11.1倍高速な推論を提供する。
- 参考スコア(独自算出の注目度): 34.54360931760496
- License:
- Abstract: 3D models surpass 2D models in CT/MRI segmentation by effectively capturing inter-slice relationships. However, the added depth dimension substantially increases memory consumption. While patch-based training alleviates memory constraints, it significantly slows down the inference speed due to the sliding window (SW) approach. We propose No-More-Sliding-Window (NMSW), a novel end-to-end trainable framework that enhances the efficiency of generic 3D segmentation backbone during an inference step by eliminating the need for SW. NMSW employs a differentiable Top-k module to selectively sample only the most relevant patches, thereby minimizing redundant computations. When patch-level predictions are insufficient, the framework intelligently leverages coarse global predictions to refine results. Evaluated across 3 tasks using 3 segmentation backbones, NMSW achieves competitive accuracy compared to SW inference while significantly reducing computational complexity by 91% (88.0 to 8.00 TMACs). Moreover, it delivers a 9.1x faster inference on the H100 GPU (99.0 to 8.3 sec) and a 11.1x faster inference on the Xeon Gold CPU (2110 to 189 sec). NMSW is model-agnostic, further boosting efficiency when integrated with any existing efficient segmentation backbones.
- Abstract(参考訳): 3次元モデルは、スライス間関係を効果的に捉え、CT/MRIセグメンテーションにおいて2次元モデルを上回る。
しかし、追加の深さ次元はメモリ消費を大幅に増加させる。
パッチベースのトレーニングはメモリ制約を軽減するが、スライディングウィンドウ(SW)アプローチによる推論速度を大幅に低下させる。
NMSW(No-More-Sliding-Window, No-More-Sliding-Window, No-More-Sliding-Window, No-More-Window, No-More-Sliding-Window, No-More-Window, No-More-Sliding-Window, NMSW)を提案する。
NMSWは、最も関連性の高いパッチのみを選択的にサンプリングし、冗長な計算を最小化するために、微分可能なTop-kモジュールを使用している。
パッチレベルの予測が不十分な場合、このフレームワークは粗いグローバルな予測をインテリジェントに活用して結果を洗練する。
3つのセグメンテーションバックボーンを用いて3つのタスクで評価され、NMSWはSW推論と比較して計算複雑性を91%削減する(88.0から8.00 TMACs)。
さらに、H100 GPU(99.0から8.3秒)では9.1倍高速な推論、Xeon Gold CPU(2110から189秒)では11.1倍高速な推論を提供する。
NMSWはモデルに依存しないため、既存の効率的なセグメンテーションバックボーンと統合した場合、さらに効率が向上する。
関連論文リスト
- Post-Training Quantization for 3D Medical Image Segmentation: A Practical Study on Real Inference Engines [13.398758600007188]
推論中に低い演算をシミュレートする「フェイク量子化」では、実際のモデルサイズを減らしたり、現実の速度を向上したりしない。
PTQ(Post-training Quantization)フレームワークは、最先端(SOTA)の医用セグメンテーションモデル上で、真の8ビット量子化を実現している。
論文 参考訳(メタデータ) (2025-01-28T23:29:40Z) - Augmented Efficiency: Reducing Memory Footprint and Accelerating Inference for 3D Semantic Segmentation through Hybrid Vision [9.96433151449016]
本稿では,2次元と3次元のコンピュータビジョン技術を組み合わせた3次元セマンティックセグメンテーションの新たなアプローチを提案する。
我々は3次元点雲にリンクしたRGB画像に対して2Dセマンティックセマンティックセマンティックセマンティクスを行い、その結果をクラスラベルの押出手法を用いて3Dに拡張する。
このモデルは、KITTI-360データセット上の最先端の3Dセマンティックセマンティックセグメンテーションモデルとして機能する。
論文 参考訳(メタデータ) (2024-07-23T00:04:10Z) - LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels [62.31333169413391]
大型スパースカーネル3次元ニューラルネットワーク(LSK3DNet)
提案手法は,SDS (Spatial-wise Dynamic Sparsity) とCWS (Channel-wise Weight Selection) の2成分からなる。
論文 参考訳(メタデータ) (2024-03-22T12:54:33Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - EDNet: Efficient Disparity Estimation with Cost Volume Combination and
Attention-based Spatial Residual [17.638034176859932]
既存の分散度推定は、主に4D結合ボリュームを活用し、分散回帰のための非常に深い3D畳み込みニューラルネットワーク(CNN)を構築する。
本稿では,EDNetというネットワークを効率よく分散推定する手法を提案する。
Scene FlowとKITTIデータセットの実験は、EDNetが以前の3D CNNベースの作業より優れていることを示している。
論文 参考訳(メタデータ) (2020-10-26T04:49:44Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - Recalibrating 3D ConvNets with Project & Excite [6.11737116137921]
畳み込みニューラルネットワーク(F-CNN)は、コンピュータビジョンと医用画像におけるセグメンテーションタスクの最先端のパフォーマンスを達成する。
既存の2Dリカバリ手法を3Dに拡張し, 簡単に比較できる汎用的な圧縮-プロセス-リカバリレートパイプラインを提案する。
PEモジュールは3次元F-CNNに容易に統合でき、Dice Scoreでは0.3まで性能が向上し、他の再校正ブロックの3次元拡張よりも性能が向上することを示した。
論文 参考訳(メタデータ) (2020-02-25T16:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。