論文の概要: OctreeNCA: Single-Pass 184 MP Segmentation on Consumer Hardware
- arxiv url: http://arxiv.org/abs/2508.06993v1
- Date: Sat, 09 Aug 2025 14:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.644924
- Title: OctreeNCA: Single-Pass 184 MP Segmentation on Consumer Hardware
- Title(参考訳): OctreeNCA: コンシューマハードウェアのシングルパス184MPセグメンテーション
- Authors: Nick Lemke, John Kalkhof, Niklas Babendererde, Anirban Mukhopadhyay,
- Abstract要約: 医療アプリケーションは、前立腺MRI、病理診断スライス、手術のビデオなどの大きな入力のセグメンテーションを要求する。
大きな入力をセグメント化すると、GPUのVRAM消費がボトルネックとなる。
我々は、評価中にUNetよりも90%少ないVRAMを占有しながら、高解像度の画像やビデオを素早くセグメントするNAA推論機能を実装した。
これにより184個の病理スライスや1分間の手術ビデオを同時に分割することができます。
- 参考スコア(独自算出の注目度): 1.0808810256442274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical applications demand segmentation of large inputs, like prostate MRIs, pathology slices, or videos of surgery. These inputs should ideally be inferred at once to provide the model with proper spatial or temporal context. When segmenting large inputs, the VRAM consumption of the GPU becomes the bottleneck. Architectures like UNets or Vision Transformers scale very poorly in VRAM consumption, resulting in patch- or frame-wise approaches that compromise global consistency and inference speed. The lightweight Neural Cellular Automaton (NCA) is a bio-inspired model that is by construction size-invariant. However, due to its local-only communication rules, it lacks global knowledge. We propose OctreeNCA by generalizing the neighborhood definition using an octree data structure. Our generalized neighborhood definition enables the efficient traversal of global knowledge. Since deep learning frameworks are mainly developed for large multi-layer networks, their implementation does not fully leverage the advantages of NCAs. We implement an NCA inference function in CUDA that further reduces VRAM demands and increases inference speed. Our OctreeNCA segments high-resolution images and videos quickly while occupying 90% less VRAM than a UNet during evaluation. This allows us to segment 184 Megapixel pathology slices or 1-minute surgical videos at once.
- Abstract(参考訳): 医療アプリケーションは、前立腺MRI、病理診断スライス、手術ビデオなどの大きな入力のセグメンテーションを要求する。
これらの入力は、適切な空間的または時間的コンテキストを持つモデルを提供するために、理想的には一度に推論されるべきである。
大きな入力をセグメント化すると、GPUのVRAM消費がボトルネックとなる。
UNetsやVision Transformerのようなアーキテクチャは、VRAM消費において非常に低スケールで、結果として、グローバルな一貫性と推論速度を損なうパッチやフレームワイドアプローチが実現します。
軽量のニューラルセルラーオートマトン(NCA)は、構造サイズ不変のバイオインスパイアされたモデルである。
しかし、ローカルのみの通信ルールのため、グローバルな知識が欠如している。
我々は,オクツリーデータ構造を用いて近傍定義を一般化し,OctreeNCAを提案する。
一般化された近所の定義は、グローバルな知識の効率的なトラバースを可能にする。
ディープラーニングフレームワークは主に大規模多層ネットワーク向けに開発されているため、その実装はNAAの利点を十分に活用していない。
CUDA に NCA 推論関数を実装し,VRAM 要求をさらに削減し,推論速度を向上する。
我々のOctreeNCAは、評価中にUNetよりも90%少ないVRAMを占有しながら、高解像度の画像やビデオを素早くセグメント化します。
これにより、184メガピクセルの病理スライスや1分間の手術ビデオを同時に分割することができます。
関連論文リスト
- HER-Seg: Holistically Efficient Segmentation for High-Resolution Medical Images [12.452415054883256]
高分解能セグメンテーションは、微細な形態的詳細を抽出することにより、正確な疾患診断に重要である。
既存の階層型エンコーダ・デコーダフレームワークは、様々な医学的セグメンテーションタスクにおいて顕著な適応性を示している。
我々はHER-Segと呼ばれる高解像度医用画像分割のための全体的効率のよいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T16:48:57Z) - Less Memory Means smaller GPUs: Backpropagation with Compressed Activations [1.7065506903618906]
深層ニューラルネットワーク(DNN)の規模は、計算リソースの要件が等しく急速に増大している。
最近の多くのアーキテクチャ、特にLarge Language Modelsは、何千ものアクセラレーターを持つスーパーコンピュータを使って訓練されなければならない。
このアプローチにより、より長いトレーニングスケジュールのコストで、ピークメモリ使用量を29%削減することが可能になります。
論文 参考訳(メタデータ) (2024-09-18T11:57:05Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - Efficient Multi-Organ Segmentation Using SpatialConfiguration-Net with
Low GPU Memory Requirements [8.967700713755281]
本研究では,SpatialConfiguration-Net(SCN)に基づくマルチ組織セグメンテーションモデルを用いる。
セグメンテーションモデルのアーキテクチャを改良し,メモリフットプリントの削減を図った。
最後に、我々は最小限の推論スクリプトを実装し、実行時間と必要なGPUメモリの両方を最適化した。
論文 参考訳(メタデータ) (2021-11-26T17:47:10Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Local Memory Attention for Fast Video Semantic Segmentation [157.7618884769969]
既存の単一フレームセマンティックセグメンテーションモデルをビデオセマンティックセグメンテーションパイプラインに変換する新しいニューラルネットワークモジュールを提案する。
我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。
都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。
論文 参考訳(メタデータ) (2021-01-05T18:57:09Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。