論文の概要: GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2311.11863v2
- Date: Sun, 7 Apr 2024 07:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 02:15:45.576045
- Title: GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding
- Title(参考訳): GP-NeRF:コンテキスト対応3次元シーン理解のための一般化知覚NeRF
- Authors: Hao Li, Dingwen Zhang, Yalun Dai, Nian Liu, Lechao Cheng, Jingfeng Li, Jingdong Wang, Junwei Han,
- Abstract要約: Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。
本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
- 参考スコア(独自算出の注目度): 101.32590239809113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying NeRF to downstream perception tasks for scene understanding and representation is becoming increasingly popular. Most existing methods treat semantic prediction as an additional rendering task, \textit{i.e.}, the "label rendering" task, to build semantic NeRFs. However, by rendering semantic/instance labels per pixel without considering the contextual information of the rendered image, these methods usually suffer from unclear boundary segmentation and abnormal segmentation of pixels within an object. To solve this problem, we propose Generalized Perception NeRF (GP-NeRF), a novel pipeline that makes the widely used segmentation model and NeRF work compatibly under a unified framework, for facilitating context-aware 3D scene perception. To accomplish this goal, we introduce transformers to aggregate radiance as well as semantic embedding fields jointly for novel views and facilitate the joint volumetric rendering of both fields. In addition, we propose two self-distillation mechanisms, i.e., the Semantic Distill Loss and the Depth-Guided Semantic Distill Loss, to enhance the discrimination and quality of the semantic field and the maintenance of geometric consistency. In evaluation, we conduct experimental comparisons under two perception tasks (\textit{i.e.} semantic and instance segmentation) using both synthetic and real-world datasets. Notably, our method outperforms SOTA approaches by 6.94\%, 11.76\%, and 8.47\% on generalized semantic segmentation, finetuning semantic segmentation, and instance segmentation, respectively.
- Abstract(参考訳): シーン理解と表現のためにNeRFを下流の知覚タスクに適用することは、ますます人気が高まっている。
既存のほとんどのメソッドは意味的予測を、意味的NeRFを構築するために、追加のレンダリングタスクである \textit{i.e.} として扱う。
しかし、レンダリングされた画像の文脈情報を考慮せずに1ピクセルあたりのセマンティック・インスタンス・ラベルを描画することで、これらの手法は通常、不明瞭な境界セグメンテーションとオブジェクト内の画素の異常セグメンテーションに悩まされる。
この問題を解決するために,広範に使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に連携させる新しいパイプラインであるGeneralized Perception NeRF (GP-NeRF)を提案する。
この目的を達成するために,両フィールドの連成ボリュームレンダリングを容易にするため,新しいビューを共同で行うために,放射能を集約するトランスフォーマーとセマンティック埋め込みフィールドを導入する。
さらに,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
評価では,2つの知覚課題(意味とインスタンスのセグメンテーション)の下で,合成と実世界の両方のデータセットを用いて実験的な比較を行う。
特に,本手法は,一般化セマンティックセグメンテーション,微調整セマンティックセグメンテーション,インスタンスセグメンテーションにおいて,SOTAアプローチを6.94 %,11.76 %,8.47 %で上回っている。
関連論文リスト
- Semantic Is Enough: Only Semantic Information For NeRF Reconstruction [12.156617601347769]
本研究の目的は,セマンティックニューラルネットワーク場(Semantic Neural Radiance Fields, Semantic-NeRF)モデルの拡張である。
我々はモデルとその訓練手順を再構成し、モデル意味出力と基底真理意味画像の間のクロスエントロピー損失のみを活用する。
論文 参考訳(メタデータ) (2024-03-24T07:04:08Z) - OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language Foundation Models for 3D Semantic Understanding [9.25233177676278]
OV-NeRFは、事前訓練されたビジョンと言語基盤モデルのポテンシャルを利用して、セマンティックフィールド学習を強化する。
提案手法は, Replica と ScanNet の mIoU 測定値において, 20.31% と 18.42% の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-02-07T08:19:57Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - JacobiNeRF: NeRF Shaping with Mutual Information Gradients [24.024577264160154]
シーンポイント,領域,エンティティ間の意味的相関を符号化するために,ニューラルラディアンス場(NeRF)を訓練する手法を提案する。
実験の結果,JacobiNeRFは2Dピクセルと3Dポイント間のアノテーションの伝播において,相互情報の整形を伴わないNeRFよりも効率的であることが示唆された。
論文 参考訳(メタデータ) (2023-04-01T15:48:59Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - PeRFception: Perception using Radiance Fields [72.99583614735545]
私たちは、PeRFceptionと呼ばれる知覚タスクのための、最初の大規模な暗黙的表現データセットを作成します。
元のデータセットからかなりのメモリ圧縮率 (96.4%) を示し、2D情報と3D情報の両方を統一形式で格納している。
この暗黙の形式を直接入力する分類とセグメンテーションモデルを構築し、画像の背景に過度に収まらないよう、新しい拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-24T13:32:46Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - In-Place Scene Labelling and Understanding with Implicit Scene
Representation [39.73806072862176]
ニューラルラジアンスフィールド(NeRF)を拡張して、外観とジオメトリでセマンティクスを共同エンコードします。
ルームスケールのシーンでは、ラベルがスパースまたは非常に騒々しい場合、このアプローチの利点を示します。
論文 参考訳(メタデータ) (2021-03-29T18:30:55Z) - Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis [194.1452124186117]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
我々のECGANは最先端の手法よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2020-03-31T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。