論文の概要: Open-NeRF: Towards Open Vocabulary NeRF Decomposition
- arxiv url: http://arxiv.org/abs/2310.16383v1
- Date: Wed, 25 Oct 2023 05:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 16:41:01.668314
- Title: Open-NeRF: Towards Open Vocabulary NeRF Decomposition
- Title(参考訳): open-nerf: オープンボキャブラリのnrf分解に向けて
- Authors: Hao Zhang, Fang Li, and Narendra Ahuja
- Abstract要約: 開語彙埋め込み型ニューラルラジアンスフィールド(Open-NeRF)を提案する。
Open-NeRFはSegment Anything Model (SAM)のような大規模オフザシェルフセグメンテーションモデルを活用する
実験の結果,提案したOpen-NeRFは,開語彙シナリオにおけるLERF citelerfやFFD citeffdといった最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 14.759265492381509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the challenge of decomposing Neural Radiance Fields
(NeRF) into objects from an open vocabulary, a critical task for object
manipulation in 3D reconstruction and view synthesis. Current techniques for
NeRF decomposition involve a trade-off between the flexibility of processing
open-vocabulary queries and the accuracy of 3D segmentation. We present,
Open-vocabulary Embedded Neural Radiance Fields (Open-NeRF), that leverage
large-scale, off-the-shelf, segmentation models like the Segment Anything Model
(SAM) and introduce an integrate-and-distill paradigm with hierarchical
embeddings to achieve both the flexibility of open-vocabulary querying and 3D
segmentation accuracy. Open-NeRF first utilizes large-scale foundation models
to generate hierarchical 2D mask proposals from varying viewpoints. These
proposals are then aligned via tracking approaches and integrated within the 3D
space and subsequently distilled into the 3D field. This process ensures
consistent recognition and granularity of objects from different viewpoints,
even in challenging scenarios involving occlusion and indistinct features. Our
experimental results show that the proposed Open-NeRF outperforms
state-of-the-art methods such as LERF \cite{lerf} and FFD \cite{ffd} in
open-vocabulary scenarios. Open-NeRF offers a promising solution to NeRF
decomposition, guided by open-vocabulary queries, enabling novel applications
in robotics and vision-language interaction in open-world 3D scenes.
- Abstract(参考訳): 本稿では,3次元再構成とビュー合成におけるオブジェクト操作の重要な課題であるオープン語彙からのオブジェクトへのニューラルラジアンス場(NeRF)の分解について述べる。
現在のNeRF分解技術は、オープン語彙クエリ処理の柔軟性と3次元セグメンテーションの精度のトレードオフを含む。
本稿では,segment anything model (sam) のような大規模・オフ・ザ・棚型セグメンテーションモデルを活用したオープン・ボキャブラリー埋め込みニューラルネットワーク放射場(open-nerf)を提案し,オープン・ボキャブラリー・クエリの柔軟性と3次元セグメンテーション精度の両立を実現する階層的埋め込みによる統合・分割パラダイムを提案する。
Open-NeRFは、まず大規模な基礎モデルを用いて、様々な視点から階層的な2Dマスクの提案を生成する。
これらの提案は追跡アプローチによって整列され、3D空間に統合され、3Dフィールドに蒸留される。
このプロセスは、閉塞や不明瞭な特徴を伴う困難なシナリオでさえも、異なる視点からのオブジェクトの一貫した認識と粒度を保証する。
実験の結果,提案したOpen-NeRFは,オープン語彙シナリオにおいてLERF \cite{lerf} やFFD \cite{ffd} などの最先端手法よりも優れていた。
Open-NeRFは、オープン語彙クエリによってガイドされるNeRF分解の有望なソリューションを提供する。
関連論文リスト
- OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views [90.71215823587875]
提案するOpenNeRFは,ポーズ画像上で自然に動作し,NeRF内のVLM機能を直接符号化する。
我々の研究は、ピクセルワイドVLM機能を用いることで、DINO正規化を必要とせずに、全体的なアーキテクチャがより複雑になることを示している。
Replicaデータセット上の3Dポイントクラウドセグメンテーションでは、OpenNeRFはLERFやOpenSceneといった最近のオープン語彙法を少なくとも4.9 mIoUで上回っている。
論文 参考訳(メタデータ) (2024-04-04T17:59:08Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - 3D Visibility-aware Generalizable Neural Radiance Fields for Interacting
Hands [51.305421495638434]
ニューラル放射場(NeRF)は、シーン、オブジェクト、人間の3D表現を約束する。
本稿では,手動操作のための一般化可能な視認可能なNeRFフレームワークを提案する。
Interhand2.6Mデータセットの実験により、提案したVA-NeRFは従来のNeRFよりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2024-01-02T00:42:06Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from
3D-aware Diffusion [107.67277084886929]
単一の画像からの新しいビュー合成には、オブジェクトやシーンの隠蔽領域を推論すると同時に、入力とのセマンティックおよび物理的整合性を同時に維持する必要がある。
そこで我々は,NerfDiffを提案する。NerfDiffは3D対応条件拡散モデル(CDM)の知識を,テスト時に仮想ビューの集合を合成・精製することで,NeRFに抽出することでこの問題に対処する。
さらに,CDMサンプルから3次元一貫した仮想ビューを同時に生成し,改良された仮想ビューに基づいてNeRFを微調整する新しいNeRF誘導蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-20T17:12:00Z) - SegNeRF: 3D Part Segmentation with Neural Radiance Fields [63.12841224024818]
SegNeRFは、通常の放射場とセマンティックフィールドを統合するニューラルネットワーク表現である。
SegNeRFは、未確認のオブジェクトであっても、ポーズされた画像から幾何学、外観、意味情報を同時に予測することができる。
SegNeRFは、野生で撮影されたオブジェクトの1つのイメージから、対応する部分のセグメンテーションによって、明示的な3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2022-11-21T07:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。