論文の概要: DivAS: Interactive 3D Segmentation of NeRFs via Depth-Weighted Voxel Aggregation
- arxiv url: http://arxiv.org/abs/2601.04860v1
- Date: Thu, 08 Jan 2026 11:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.188587
- Title: DivAS: Interactive 3D Segmentation of NeRFs via Depth-Weighted Voxel Aggregation
- Title(参考訳): DivAS: 奥行き重み付きボクセルアグリゲーションによるNeRFのインタラクティブな3次元セグメンテーション
- Authors: Ayush Pande,
- Abstract要約: 既存のNeural Radiance Fields(NeRF)のセグメンテーション方法は、しばしば最適化に基づいており、2D基礎モデルのゼロショット能力を犠牲にする、シーンごとの遅いトレーニングを必要としている。
DivASは最適化のない、完全にインタラクティブなフレームワークで、これらの制限に対処しています。
提案手法は,ユーザポイントプロンプトから生成される2次元SAMマスクをNeRFから派生した深度で改良し,幾何学的精度と前景分離を向上する高速GUIベースのワークフローを介して動作する。
私たちのコントリビューションの中核はカスタムカーネルで、これらの洗練されたマルチビューマスクを統合された3Dボクセルグリッドに集約します。
- 参考スコア(独自算出の注目度): 1.1458853556386799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for segmenting Neural Radiance Fields (NeRFs) are often optimization-based, requiring slow per-scene training that sacrifices the zero-shot capabilities of 2D foundation models. We introduce DivAS (Depth-interactive Voxel Aggregation Segmentation), an optimization-free, fully interactive framework that addresses these limitations. Our method operates via a fast GUI-based workflow where 2D SAM masks, generated from user point prompts, are refined using NeRF-derived depth priors to improve geometric accuracy and foreground-background separation. The core of our contribution is a custom CUDA kernel that aggregates these refined multi-view masks into a unified 3D voxel grid in under 200ms, enabling real-time visual feedback. This optimization-free design eliminates the need for per-scene training. Experiments on Mip-NeRF 360° and LLFF show that DivAS achieves segmentation quality comparable to optimization-based methods, while being 2-2.5x faster end-to-end, and up to an order of magnitude faster when excluding user prompting time.
- Abstract(参考訳): 既存のNeural Radiance Fields(NeRF)のセグメンテーション方法は、しばしば最適化に基づいており、2D基礎モデルのゼロショット能力を犠牲にする、シーンごとの遅いトレーニングを必要としている。
DivAS (Depth-interactive Voxel Aggregation Segmentation)は,これらの制限に対処する,最適化のない,完全にインタラクティブなフレームワークである。
提案手法は,ユーザポイントプロンプトから生成される2次元SAMマスクをNeRFから派生した深度を用いて改良し,幾何学的精度の向上と地上背景分離を行う高速GUIベースのワークフローを介して動作する。
私たちのコントリビューションの中核はカスタムのCUDAカーネルで、これらの洗練されたマルチビューマスクを200ミリ秒未満で統一された3Dボクセルグリッドに集約し、リアルタイムの視覚フィードバックを可能にします。
この最適化不要な設計は、シーンごとのトレーニングを不要にする。
Mip-NeRF 360°およびLLFFの実験では、DivASは最適化ベースの手法に匹敵するセグメンテーション品質を達成し、エンド・ツー・エンドは2-2.5倍高速で、ユーザ・プロンプト時間を除くと桁違いに高速である。
関連論文リスト
- PointGauss: Point Cloud-Guided Multi-Object Segmentation for Gaussian Splatting [18.042769428774676]
本稿では,ガウススプラッティング表現におけるリアルタイム多目的セグメンテーションのための新しいクラウド誘導フレームワークであるPointGaussを紹介する。
1) ポイントクラウドベースのガウスプリミティブデコーダで、1分以内に3Dインスタンスマスクを生成すること、2) マルチビューの一貫性を保証するGPUアクセラレーションされた2Dマスクレンダリングシステムである。
論文 参考訳(メタデータ) (2025-08-01T01:56:54Z) - LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [75.67501939005119]
メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。
カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。
本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T06:50:57Z) - Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering [37.48219196092378]
ニューラルネットワークや3次元ガウスアンを使わずに,適応的なスパースボクセル上での合成プロセスを組み込んだ効率的な放射場描画アルゴリズムを提案する。
提案手法は,従来の神経フリーなボクセルモデルを4dbPSNR以上と10倍FPS以上のスピードアップにより改善する。
我々のボクセル表現は、ボリュームフュージョンやVoxel Pooling、マーチングキューブといったグリッドベースの3D処理技術とシームレスに互換性がある。
論文 参考訳(メタデータ) (2024-12-05T18:59:11Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - MicroDreamer: Efficient 3D Generation in $\sim$20 Seconds by Score-based Iterative Reconstruction [37.07128043394227]
本稿では,NFEの削減のために,異なる3次元再構成過程を模倣した効率的かつ汎用的なアルゴリズムであるスコアベース反復再構成(SIR)を提案する。
我々は,様々な3次元表現や3次元生成タスクに適用可能な,MicroDreamerと呼ばれる効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T12:56:14Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis [73.50359502037232]
VoxNeRFは、ニューラル室内再構成と新しいビュー合成の質と効率を高めるための新しいアプローチである。
本稿では,最も関連性の高い領域に計算資源を割り当てる効率的なボクセル誘導サンプリング手法を提案する。
私たちのアプローチは、ScanNetとScanNet++に関する広範な実験で検証されています。
論文 参考訳(メタデータ) (2023-11-09T11:32:49Z) - Fast-SNARF: A Fast Deformer for Articulated Neural Fields [92.68788512596254]
本稿では,標準空間とポーズ空間の正確な対応性を求める,ニューラルフィールドのための新しい調音モジュールFast-SNARFを提案する。
Fast-SNARFはこれまでの研究であるSNARFの代替であり、計算効率は大幅に向上した。
変形マップの学習は多くの3次元人間のアバター法において重要な要素であるため、この研究は3次元仮想人間の実現に向けた重要なステップであると考えている。
論文 参考訳(メタデータ) (2022-11-28T17:55:34Z) - Neural Deformable Voxel Grid for Fast Optimization of Dynamic View
Synthesis [63.25919018001152]
動的シーンを扱うための高速な変形可能な放射場法を提案する。
本手法は訓練に20分しかかからないD-NeRFに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2022-06-15T17:49:08Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。