論文の概要: In-Place Panoptic Radiance Field Segmentation with Perceptual Prior for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2410.04529v1
- Date: Sun, 6 Oct 2024 15:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:46:25.805391
- Title: In-Place Panoptic Radiance Field Segmentation with Perceptual Prior for 3D Scene Understanding
- Title(参考訳): 3次元シーン理解のための知覚的事前認識によるPlace Panoptic Radiance Field Segmentation
- Authors: Shenghao Li,
- Abstract要約: そこで本研究では,視覚を主眼とした3次元シーン表現とパノプティクス理解手法を提案する。
2次元セマンティクスとインスタンス認識を含む線形代入問題として、神経放射場内のパノプティクス理解を再構成する。
合成シーンや実世界のシーンを含む課題条件下での実験とアブレーション研究は,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D scene representation and panoptic understanding are essential for applications such as virtual reality, robotics, and autonomous driving. However, challenges persist with existing methods, including precise 2D-to-3D mapping, handling complex scene characteristics like boundary ambiguity and varying scales, and mitigating noise in panoptic pseudo-labels. This paper introduces a novel perceptual-prior-guided 3D scene representation and panoptic understanding method, which reformulates panoptic understanding within neural radiance fields as a linear assignment problem involving 2D semantics and instance recognition. Perceptual information from pre-trained 2D panoptic segmentation models is incorporated as prior guidance, thereby synchronizing the learning processes of appearance, geometry, and panoptic understanding within neural radiance fields. An implicit scene representation and understanding model is developed to enhance generalization across indoor and outdoor scenes by extending the scale-encoded cascaded grids within a reparameterized domain distillation framework. This model effectively manages complex scene attributes and generates 3D-consistent scene representations and panoptic understanding outcomes for various scenes. Experiments and ablation studies under challenging conditions, including synthetic and real-world scenes, demonstrate the proposed method's effectiveness in enhancing 3D scene representation and panoptic segmentation accuracy.
- Abstract(参考訳): 正確な3Dシーン表現とパノプティクス理解は、仮想現実、ロボティクス、自律運転などのアプリケーションに不可欠である。
しかし、正確な2D-to-3Dマッピング、境界あいまいさやスケールの変化といった複雑なシーン特性の扱い、パノピックな擬似ラベルのノイズ軽減など、既存の手法では課題が続いている。
本稿では,2次元のセマンティクスとインスタンス認識を含む線形代入問題として,ニューラルラディアンス領域におけるパノプティクス理解を再構成する,知覚優先の3次元シーン表現とパノプティカル理解手法を提案する。
事前学習された2次元パノプティックセグメンテーションモデルからの知覚情報を事前指導として組み込むことにより、ニューラル放射場における外観、幾何学、およびパノプティック理解の学習過程を同期させる。
縮小符号化されたカスケードグリッドを再パラメータ化ドメイン蒸留フレームワーク内に拡張することにより,屋内および屋外のシーン間の一般化を促進するために,暗黙のシーン表現と理解モデルを開発した。
このモデルは複雑なシーン特性を効果的に管理し、3D一貫性のあるシーン表現と様々なシーンに対するパノラマ理解結果を生成する。
合成シーンや実世界のシーンを含む難易度条件下での実験およびアブレーション研究は、3次元シーン表現の強化とパノプティックセグメンテーションの精度向上における提案手法の有効性を実証する。
関連論文リスト
- Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Semantically-aware Neural Radiance Fields for Visual Scene
Understanding: A Comprehensive Review [26.436253160392123]
視覚的シーン理解における意味的認識型ニューラルレイディアンスフィールド(NeRF)の役割を概観する。
NeRFはシーン内の静止オブジェクトと動的オブジェクトの両方に対して3D表現を正確に推論する。
論文 参考訳(メタデータ) (2024-02-17T00:15:09Z) - SERF: Fine-Grained Interactive 3D Segmentation and Editing with Radiance Fields [92.14328581392633]
放射場を用いた対話型3Dセグメンテーションと編集アルゴリズムを新たに導入し,これをSERFと呼ぶ。
提案手法では,マルチビューアルゴリズムと事前学習した2Dモデルを統合することにより,ニューラルネットワーク表現を生成する。
この表現に基づいて,局所的な情報を保存し,変形に頑健な新しい表面レンダリング技術を導入する。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z) - Scene-Generalizable Interactive Segmentation of Radiance Fields [64.37093918762]
我々はSGISRF(Scene-Generalizable Interactive in Radiance Fields)の最初の試みを行う。
そこで本研究では,複数視点の2D画像に対して,対話的なユーザクリック数回しか表示されない,新しい(見えない)シーンの3Dオブジェクトセグメンテーションを実現するSGISRF手法を提案する。
多様なシーンをカバーする2つの実世界の挑戦的ベンチマーク実験は,1) 提案手法の有効性とシーン一般化性を示し,2) シーン固有の最適化を必要とする古典的手法と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2023-08-09T17:55:50Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Panoptic Lifting for 3D Scene Understanding with Neural Fields [32.59498558663363]
そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。
本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。
実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-19T19:15:36Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。