論文の概要: No More Sliding Window: Efficient 3D Medical Image Segmentation with Differentiable Top-k Patch Sampling
- arxiv url: http://arxiv.org/abs/2501.10814v1
- Date: Sat, 18 Jan 2025 16:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:14.771125
- Title: No More Sliding Window: Efficient 3D Medical Image Segmentation with Differentiable Top-k Patch Sampling
- Title(参考訳): スライディングウィンドウは不要:Top-k Patch Smplingによる3次元医用画像分割の効率化
- Authors: Young Seok Jeon, Hongfei Yang, Huazhu Fu, Mengling Feng,
- Abstract要約: 3Dモデルは、スライス間の関係を活用できるため、3D医療画像セグメンテーションタスクにおいて2Dよりも好まれる。
一般的な解決策は、パッチベースのトレーニングを使用して、スライディングウィンドウ(SW)推論でボリューム全体の予測を行うことだ。
任意の3次元セグメンテーションモデルの効率性と精度を高める新しいフレームワークであるNMSW-Netを提案する。
- 参考スコア(独自算出の注目度): 34.54360931760496
- License:
- Abstract: 3D models are favored over 2D for 3D medical image segmentation tasks due to their ability to leverage inter-slice relationship, yielding higher segmentation accuracy. However, 3D models demand significantly more GPU memory with increased model size and intermediate tensors. A common solution is to use patch-based training and make whole-volume predictions with sliding window (SW) inference. SW inference reduces memory usage but is slower due to equal resource allocation across patches and less accurate as it overlooks global features beyond patches. We propose NMSW-Net (No-More-Sliding-Window-Net), a novel framework that enhances efficiency and accuracy of any given 3D segmentation model by eliminating SW inference and incorporating global predictions when necessary. NMSW-Net incorporates a differentiable Top-k module to sample only the relevant patches that enhance segmentation accuracy, thereby minimizing redundant computations. Additionally, it learns to leverage coarse global predictions when patch prediction alone is insufficient. NMSW-Net is model-agnostic, making it compatible with any 3D segmentation model that previously relied on SW inference. Evaluated across 3 tasks with 3 segmentation backbones, NMSW-Net achieves competitive or sometimes superior accuracy compared to SW, while reducing computational complexity by 90% (87.5 to 7.95 TFLOPS), delivering 4x faster inference on the H100 GPU (19.0 to 4.3 sec), and 7x faster inference on the Intel Xeon Gold CPU (1710 to 230 seconds).
- Abstract(参考訳): 3Dモデルは、スライス間の関係を活用でき、より高いセグメンテーション精度が得られるため、3D医療画像セグメンテーションタスクにおいて2Dよりも好まれる。
しかし、3Dモデルでは、モデルサイズと中間テンソルが増加し、GPUメモリが大幅に増大する。
一般的な解決策は、パッチベースのトレーニングを使用して、スライディングウィンドウ(SW)推論でボリューム全体の予測を行うことだ。
SW推論はメモリ使用量を減らすが、パッチ間のリソース割り当てが等しく、パッチ以外のグローバル機能を見落としているため正確ではないため遅い。
NMSW-Net(No-More-Sliding-Window-Net)は、SW推論を排除し、必要に応じてグローバルな予測を取り入れることで、任意の3次元セグメントモデルの効率性と精度を高める新しいフレームワークである。
NMSW-Netは、差別化可能なTop-kモジュールを組み込んで、セグメンテーション精度を高めるパッチのみをサンプリングし、冗長な計算を最小化する。
さらに、パッチ予測だけでは不十分な場合に、粗いグローバル予測を活用することを学ぶ。
NMSW-Netはモデルに依存しないため、以前はSW推論に依存していた任意の3Dセグメンテーションモデルと互換性がある。
3つのセグメンテーションバックボーンを持つ3つのタスクで評価され、NMSW-NetはSWよりも競合的または時には優れた精度を実現し、計算複雑性を90%削減し(87.5から7.95 TFLOPS)、H100 GPUで4倍高速な推論(19.0から4.3秒)、Intel Xeon Gold CPUで7倍高速な推論(1710から230秒)を実現した。
関連論文リスト
- Augmented Efficiency: Reducing Memory Footprint and Accelerating Inference for 3D Semantic Segmentation through Hybrid Vision [9.96433151449016]
本稿では,2次元と3次元のコンピュータビジョン技術を組み合わせた3次元セマンティックセグメンテーションの新たなアプローチを提案する。
我々は3次元点雲にリンクしたRGB画像に対して2Dセマンティックセマンティックセマンティックセマンティクスを行い、その結果をクラスラベルの押出手法を用いて3Dに拡張する。
このモデルは、KITTI-360データセット上の最先端の3Dセマンティックセマンティックセグメンテーションモデルとして機能する。
論文 参考訳(メタデータ) (2024-07-23T00:04:10Z) - LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels [62.31333169413391]
大型スパースカーネル3次元ニューラルネットワーク(LSK3DNet)
提案手法は,SDS (Spatial-wise Dynamic Sparsity) とCWS (Channel-wise Weight Selection) の2成分からなる。
論文 参考訳(メタデータ) (2024-03-22T12:54:33Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - EDNet: Efficient Disparity Estimation with Cost Volume Combination and
Attention-based Spatial Residual [17.638034176859932]
既存の分散度推定は、主に4D結合ボリュームを活用し、分散回帰のための非常に深い3D畳み込みニューラルネットワーク(CNN)を構築する。
本稿では,EDNetというネットワークを効率よく分散推定する手法を提案する。
Scene FlowとKITTIデータセットの実験は、EDNetが以前の3D CNNベースの作業より優れていることを示している。
論文 参考訳(メタデータ) (2020-10-26T04:49:44Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - FADNet: A Fast and Accurate Network for Disparity Estimation [18.05392578461659]
本研究では,FADNetという分散度推定のための効率的かつ高精度なディープネットワークを提案する。
高速な計算を保存するために、2Dベースの効率的な相関層と積み重ねブロックを利用する。
精度を向上させるために、マルチスケールの重みスケジューリングトレーニング技術を活用するために、マルチスケールの予測を含んでいる。
論文 参考訳(メタデータ) (2020-03-24T10:27:11Z) - Recalibrating 3D ConvNets with Project & Excite [6.11737116137921]
畳み込みニューラルネットワーク(F-CNN)は、コンピュータビジョンと医用画像におけるセグメンテーションタスクの最先端のパフォーマンスを達成する。
既存の2Dリカバリ手法を3Dに拡張し, 簡単に比較できる汎用的な圧縮-プロセス-リカバリレートパイプラインを提案する。
PEモジュールは3次元F-CNNに容易に統合でき、Dice Scoreでは0.3まで性能が向上し、他の再校正ブロックの3次元拡張よりも性能が向上することを示した。
論文 参考訳(メタデータ) (2020-02-25T16:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。