論文の概要: No More Sliding Window: Efficient 3D Medical Image Segmentation with Differentiable Top-k Patch Sampling
- arxiv url: http://arxiv.org/abs/2501.10814v2
- Date: Thu, 06 Mar 2025 11:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 17:59:00.49517
- Title: No More Sliding Window: Efficient 3D Medical Image Segmentation with Differentiable Top-k Patch Sampling
- Title(参考訳): スライディングウィンドウは不要:Top-k Patch Smplingによる3次元医用画像分割の効率化
- Authors: Young Seok Jeon, Hongfei Yang, Huazhu Fu, Mengling Feng,
- Abstract要約: No-More-Sliding-Window (NMSW)は、3Dセグメンテーションのための新しいエンドツーエンドのトレーニング可能なフレームワークである。
NMSWは、最も関連するパッチのみを選択的にサンプリングするために、差別化可能なTop-kモジュールを使用している。
H100 GPUでは9.1倍高速な推論、Xeon Gold CPUでは11.1倍高速な推論を提供する。
- 参考スコア(独自算出の注目度): 34.54360931760496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D models surpass 2D models in CT/MRI segmentation by effectively capturing inter-slice relationships. However, the added depth dimension substantially increases memory consumption. While patch-based training alleviates memory constraints, it significantly slows down the inference speed due to the sliding window (SW) approach. We propose No-More-Sliding-Window (NMSW), a novel end-to-end trainable framework that enhances the efficiency of generic 3D segmentation backbone during an inference step by eliminating the need for SW. NMSW employs a differentiable Top-k module to selectively sample only the most relevant patches, thereby minimizing redundant computations. When patch-level predictions are insufficient, the framework intelligently leverages coarse global predictions to refine results. Evaluated across 3 tasks using 3 segmentation backbones, NMSW achieves competitive accuracy compared to SW inference while significantly reducing computational complexity by 91% (88.0 to 8.00 TMACs). Moreover, it delivers a 9.1x faster inference on the H100 GPU (99.0 to 8.3 sec) and a 11.1x faster inference on the Xeon Gold CPU (2110 to 189 sec). NMSW is model-agnostic, further boosting efficiency when integrated with any existing efficient segmentation backbones.
- Abstract(参考訳): 3次元モデルは、スライス間関係を効果的に捉え、CT/MRIセグメンテーションにおいて2次元モデルを上回る。
しかし、追加の深さ次元はメモリ消費を大幅に増加させる。
パッチベースのトレーニングはメモリ制約を軽減するが、スライディングウィンドウ(SW)アプローチによる推論速度を大幅に低下させる。
NMSW(No-More-Sliding-Window, No-More-Sliding-Window, No-More-Sliding-Window, No-More-Window, No-More-Sliding-Window, No-More-Window, No-More-Sliding-Window, NMSW)を提案する。
NMSWは、最も関連性の高いパッチのみを選択的にサンプリングし、冗長な計算を最小化するために、微分可能なTop-kモジュールを使用している。
パッチレベルの予測が不十分な場合、このフレームワークは粗いグローバルな予測をインテリジェントに活用して結果を洗練する。
3つのセグメンテーションバックボーンを用いて3つのタスクで評価され、NMSWはSW推論と比較して計算複雑性を91%削減する(88.0から8.00 TMACs)。
さらに、H100 GPU(99.0から8.3秒)では9.1倍高速な推論、Xeon Gold CPU(2110から189秒)では11.1倍高速な推論を提供する。
NMSWはモデルに依存しないため、既存の効率的なセグメンテーションバックボーンと統合した場合、さらに効率が向上する。
関連論文リスト
- Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Post-Training Quantization for 3D Medical Image Segmentation: A Practical Study on Real Inference Engines [13.398758600007188]
推論中に低い演算をシミュレートする「フェイク量子化」では、実際のモデルサイズを減らしたり、現実の速度を向上したりしない。
PTQ(Post-training Quantization)フレームワークは、最先端(SOTA)の医用セグメンテーションモデル上で、真の8ビット量子化を実現している。
論文 参考訳(メタデータ) (2025-01-28T23:29:40Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Augmented Efficiency: Reducing Memory Footprint and Accelerating Inference for 3D Semantic Segmentation through Hybrid Vision [9.96433151449016]
本稿では,2次元と3次元のコンピュータビジョン技術を組み合わせた3次元セマンティックセグメンテーションの新たなアプローチを提案する。
我々は3次元点雲にリンクしたRGB画像に対して2Dセマンティックセマンティックセマンティックセマンティクスを行い、その結果をクラスラベルの押出手法を用いて3Dに拡張する。
このモデルは、KITTI-360データセット上の最先端の3Dセマンティックセマンティックセグメンテーションモデルとして機能する。
論文 参考訳(メタデータ) (2024-07-23T00:04:10Z) - LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels [62.31333169413391]
大型スパースカーネル3次元ニューラルネットワーク(LSK3DNet)
提案手法は,SDS (Spatial-wise Dynamic Sparsity) とCWS (Channel-wise Weight Selection) の2成分からなる。
論文 参考訳(メタデータ) (2024-03-22T12:54:33Z) - E2ENet: Dynamic Sparse Feature Fusion for Accurate and Efficient 3D Medical Image Segmentation [34.865695471451886]
E2ENet(Efficient to Efficient Network)と呼ばれる3次元医用画像分割モデルを提案する。
パラメトリックと計算効率の2つの設計が組み込まれている。
さまざまなリソース制約に対して、正確性と効率性のトレードオフを一貫して達成します。
論文 参考訳(メタデータ) (2023-12-07T22:13:37Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Scaling Up 3D Kernels with Bayesian Frequency Re-parameterization for
Medical Image Segmentation [25.62587471067468]
RepUX-Netは、単純な大きなカーネルブロック設計を持つ純粋なCNNアーキテクチャである。
人間の視覚系における空間周波数にインスパイアされ、カーネル収束を要素的設定に変化させるよう拡張する。
論文 参考訳(メタデータ) (2023-03-10T08:38:34Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Efficient Context-Aware Network for Abdominal Multi-organ Segmentation [8.92337236455273]
腹腔内多臓器分画を効果的かつ効果的に行うための網羅的粗粒化フレームワークを開発した。
デコーダモジュールでは、k*k*1のスライス内畳み込みと1*1*kのスライス間畳み込みによる異方性畳み込みが、負担を軽減するように設計されている。
コンテキストブロックに対して、異方性と長距離のコンテキスト情報をキャプチャするためのストリッププーリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-09-22T09:05:59Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - EDNet: Efficient Disparity Estimation with Cost Volume Combination and
Attention-based Spatial Residual [17.638034176859932]
既存の分散度推定は、主に4D結合ボリュームを活用し、分散回帰のための非常に深い3D畳み込みニューラルネットワーク(CNN)を構築する。
本稿では,EDNetというネットワークを効率よく分散推定する手法を提案する。
Scene FlowとKITTIデータセットの実験は、EDNetが以前の3D CNNベースの作業より優れていることを示している。
論文 参考訳(メタデータ) (2020-10-26T04:49:44Z) - FADNet: A Fast and Accurate Network for Disparity Estimation [18.05392578461659]
本研究では,FADNetという分散度推定のための効率的かつ高精度なディープネットワークを提案する。
高速な計算を保存するために、2Dベースの効率的な相関層と積み重ねブロックを利用する。
精度を向上させるために、マルチスケールの重みスケジューリングトレーニング技術を活用するために、マルチスケールの予測を含んでいる。
論文 参考訳(メタデータ) (2020-03-24T10:27:11Z) - Recalibrating 3D ConvNets with Project & Excite [6.11737116137921]
畳み込みニューラルネットワーク(F-CNN)は、コンピュータビジョンと医用画像におけるセグメンテーションタスクの最先端のパフォーマンスを達成する。
既存の2Dリカバリ手法を3Dに拡張し, 簡単に比較できる汎用的な圧縮-プロセス-リカバリレートパイプラインを提案する。
PEモジュールは3次元F-CNNに容易に統合でき、Dice Scoreでは0.3まで性能が向上し、他の再校正ブロックの3次元拡張よりも性能が向上することを示した。
論文 参考訳(メタデータ) (2020-02-25T16:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。