論文の概要: NaviNeRF: NeRF-based 3D Representation Disentanglement by Latent Semantic Navigation
- arxiv url: http://arxiv.org/abs/2304.11342v2
- Date: Thu, 28 Mar 2024 09:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 22:12:46.141820
- Title: NaviNeRF: NeRF-based 3D Representation Disentanglement by Latent Semantic Navigation
- Title(参考訳): NaviNeRF:潜時セマンティックナビゲーションによるNeRFに基づく3次元表現の絡み合い
- Authors: Baao Xie, Bohan Li, Zequn Zhang, Junting Dong, Xin Jin, Jingyu Yang, Wenjun Zeng,
- Abstract要約: 3D表現のゆがみは、3Dデータの基本的な説明因子を特定し、分解し、操作することを目的としている。
NeRFは生成するNeRFパイプライン上に構築されており、アウターナビゲーションブランチとインナーリファインメントブランチを備えている。
NaviNeRFは、従来の3D対応モデルよりもきめ細かい3Dディスタングル能力が優れている。
- 参考スコア(独自算出の注目度): 48.08517291377735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D representation disentanglement aims to identify, decompose, and manipulate the underlying explanatory factors of 3D data, which helps AI fundamentally understand our 3D world. This task is currently under-explored and poses great challenges: (i) the 3D representations are complex and in general contains much more information than 2D image; (ii) many 3D representations are not well suited for gradient-based optimization, let alone disentanglement. To address these challenges, we use NeRF as a differentiable 3D representation, and introduce a self-supervised Navigation to identify interpretable semantic directions in the latent space. To our best knowledge, this novel method, dubbed NaviNeRF, is the first work to achieve fine-grained 3D disentanglement without any priors or supervisions. Specifically, NaviNeRF is built upon the generative NeRF pipeline, and equipped with an Outer Navigation Branch and an Inner Refinement Branch. They are complementary -- the outer navigation is to identify global-view semantic directions, and the inner refinement dedicates to fine-grained attributes. A synergistic loss is further devised to coordinate two branches. Extensive experiments demonstrate that NaviNeRF has a superior fine-grained 3D disentanglement ability than the previous 3D-aware models. Its performance is also comparable to editing-oriented models relying on semantic or geometry priors.
- Abstract(参考訳): 3D表現のゆがみは、3Dデータの基本的な説明的要素を特定し、分解し、操作することを目的としており、AIが我々の3D世界を根本的に理解するのに役立つ。
このタスクは現在調査中であり、大きな課題を提起しています。
(i)3次元表現は複雑で、一般に2次元画像よりもはるかに多くの情報を含む。
(ii)多くの3次元表現は勾配に基づく最適化には適していない。
これらの課題に対処するために、NeRFを識別可能な3次元表現として使用し、潜在空間における解釈可能な意味方向を特定するための自己教師付きナビゲーションを導入する。
我々の知る限り、NaviNeRFと呼ばれるこの新しい手法は、先行や監督なしに細粒度の3Dディスタングルを達成した最初の試みである。
具体的には、NaviNeRFは生成するNeRFパイプライン上に構築されており、アウターナビゲーションブランチとインナーリファインメントブランチを備えている。
それらは補完的なものであり、外界のナビゲーションはグローバルなビューの意味的な方向を識別することであり、内部の洗練はきめ細かい属性に捧げられている。
相乗的損失はさらに2つの枝を調整するために考案される。
大規模な実験により、NaviNeRFは従来の3D認識モデルよりもきめ細かい3Dディスタングル能力を有することが示された。
その性能は、セマンティックや幾何の先行に依存する編集指向モデルに匹敵する。
関連論文リスト
- Gaussian Splatting Decoder for 3D-aware Generative Adversarial Networks [10.207899254360374]
NeRFをベースとしたGAN(Generative Adversarial Networks)は非常に高いレンダリング品質を示す。
Neural Radiance Fieldsによるレンダリングは、3Dアプリケーションに課題をもたらす。
我々は、NeRFベースの3D対応GANの高レンダリング品質と3DGSの柔軟性と計算上の利点を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-16T14:48:40Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Unsupervised Style-based Explicit 3D Face Reconstruction from Single
Image [10.1205208477163]
本研究では,Unsupervised 2D to Explicit 3D Style Transferを解くための一般的な逆学習フレームワークを提案する。
具体的には、Wuらによる教師なし明示的な3D再構成ネットワークと、StarGAN-v2というジェネレーティブ・アドバイザリ・ネットワーク(GAN)の2つのアーキテクチャを統合する。
提案手法は,DepthNetを3次元再構成で,Pix2NeRFを条件付き転送で,よく確立されたソリューションよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T21:25:06Z) - FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation
Models [21.523836478458524]
一般化可能なNeRFに関する最近の研究は、単一または少数の画像からの新規なビュー合成に関する有望な結果を示している。
本研究では,事前学習された視覚モデルを蒸留することにより,一般化可能なNeRFを学習するためのFeatureNeRFという新しいフレームワークを提案する。
一般化可能な3次元特徴抽出器としてのFeatureNeRFの有効性を実証した。
論文 参考訳(メタデータ) (2023-03-22T17:57:01Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - 3D-aware Image Synthesis via Learning Structural and Textural
Representations [39.681030539374994]
生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しするが、まだ難しい。
近年、GAN(Generative Adversarial Network)とNeRF(Neural Radiance Field)という3次元座標をピクセル値にマッピングする手法が試みられている。
本稿では,構造表現とテクスチャ表現を明示的に学習することで,高忠実度3次元画像合成のための新しいフレームワーク,VolumeGANを提案する。
論文 参考訳(メタデータ) (2021-12-20T18:59:40Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。