論文の概要: NeRF-Loc: Transformer-Based Object Localization Within Neural Radiance
Fields
- arxiv url: http://arxiv.org/abs/2209.12068v2
- Date: Sat, 15 Jul 2023 08:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 00:30:17.158546
- Title: NeRF-Loc: Transformer-Based Object Localization Within Neural Radiance
Fields
- Title(参考訳): NeRF-Loc:ニューラルラジアンスフィールド内におけるトランスフォーマーによる物体定位
- Authors: Jiankai Sun, Yan Xu, Mingyu Ding, Hongwei Yi, Chen Wang, Jingdong
Wang, Liangjun Zhang, Mac Schwager
- Abstract要約: 我々は,NeRFシーン内の物体の3次元境界ボックスを抽出するトランスフォーマーベースのフレームワークNeRF-Locを提案する。
NeRF-Locは、事前訓練されたNeRFモデルとカメラビューを入力として、オブジェクトのラベル付き3Dバウンディングボックスを出力として生成する。
- 参考スコア(独自算出の注目度): 62.89785701659139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Radiance Fields (NeRFs) have become a widely-applied scene
representation technique in recent years, showing advantages for robot
navigation and manipulation tasks. To further advance the utility of NeRFs for
robotics, we propose a transformer-based framework, NeRF-Loc, to extract 3D
bounding boxes of objects in NeRF scenes. NeRF-Loc takes a pre-trained NeRF
model and camera view as input and produces labeled, oriented 3D bounding boxes
of objects as output. Using current NeRF training tools, a robot can train a
NeRF environment model in real-time and, using our algorithm, identify 3D
bounding boxes of objects of interest within the NeRF for downstream navigation
or manipulation tasks. Concretely, we design a pair of paralleled transformer
encoder branches, namely the coarse stream and the fine stream, to encode both
the context and details of target objects. The encoded features are then fused
together with attention layers to alleviate ambiguities for accurate object
localization. We have compared our method with conventional RGB(-D) based
methods that take rendered RGB images and depths from NeRFs as inputs. Our
method is better than the baselines.
- Abstract(参考訳): 近年,Neural Radiance Fields (NeRF) はロボットナビゲーションや操作タスクの利点を示すシーン表現技術として広く採用されている。
ロボット工学におけるNeRFの活用をさらに進めるために,NeRFシーン内の物体の3次元境界ボックスを抽出するトランスフォーマーベースのフレームワークNeRF-Locを提案する。
NeRF-Locは、事前訓練されたNeRFモデルとカメラビューを入力として、オブジェクトのラベル付き3Dバウンディングボックスを出力として生成する。
ロボットは、現在のNeRFトレーニングツールを使用して、NeRF環境モデルをリアルタイムでトレーニングし、我々のアルゴリズムを用いて、下流ナビゲーションや操作タスクのために、NeRF内の興味ある物体の3次元境界ボックスを識別する。
具体的には,一対の並列トランスフォーマーエンコーダ分岐,すなわち粗いストリームと細かなストリームを設計し,対象オブジェクトのコンテキストと詳細の両方を符号化する。
符号化された特徴は、注意層と融合して、正確なオブジェクトローカライゼーションのためのあいまいさを軽減する。
提案手法を従来のRGB(-D)ベースでレンダリングされたRGB画像とNeRFからの深度を入力とする手法と比較した。
我々の方法はベースラインより優れている。
関連論文リスト
- NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - DReg-NeRF: Deep Registration for Neural Radiance Fields [66.69049158826677]
我々は,人間の介入なしにオブジェクト中心のアノテートシーンにおけるNeRF登録問題を解くためにDReg-NeRFを提案する。
提案手法は,SOTAポイントクラウド登録方式を大きなマージンで打ち負かす。
論文 参考訳(メタデータ) (2023-08-18T08:37:49Z) - RePaint-NeRF: NeRF Editting via Semantic Masks and Diffusion Models [36.236190350126826]
本稿では,RGB画像を入力として取り出し,ニューラルシーンの3Dコンテンツを変更可能な新しいフレームワークを提案する。
具体的には,対象オブジェクトを意味的に選択し,事前学習した拡散モデルを用いてNeRFモデルを誘導し,新しい3Dオブジェクトを生成する。
実験の結果,本アルゴリズムは,異なるテキストプロンプト下でのNeRFの3次元オブジェクトの編集に有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-09T04:49:31Z) - NeRFuser: Large-Scale Scene Representation by NeRF Fusion [35.749208740102546]
Neural Radiance Fields (NeRF)のような暗黙的な視覚表現の実用的な利点は、そのメモリ効率である。
既製のNeRFへのアクセスのみを前提としたNeRF登録とブレンディングのための新しいアーキテクチャであるNeRFuserを提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:05Z) - Registering Neural Radiance Fields as 3D Density Images [55.64859832225061]
我々は,様々な場面でトレーニングやテストが可能な,普遍的な事前学習型ニューラルネットワークを提案する。
我々は,グローバルアプローチとして,NeRFモデルを効果的に登録できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T09:08:46Z) - NeRF-Supervision: Learning Dense Object Descriptors from Neural Radiance
Fields [54.27264716713327]
シーンのニューラル・ラジアンス・フィールド(NeRF)表現は,高密度物体記述子の訓練に利用できることを示す。
我々は、最適化されたNeRFを用いて、オブジェクトの複数のビュー間の密接な対応を抽出し、これらの対応を、オブジェクトのビュー不変表現を学習するためのトレーニングデータとして使用する。
また,本手法により教師されたディエンス対応モデルは,市販の学習ディスクリプタよりも106%優れていた。
論文 参考訳(メタデータ) (2022-03-03T18:49:57Z) - Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation [26.868351498722884]
ニューラルラジアンスフィールド(NeRF)の集合として表現された3Dモデルにシーンの単一のイメージを変換する手法であるObSuRFを紹介します。
RGB-D入力でのNeRFのトレーニングを可能にする新しい損失を導き出し、より計算的に学習を効率化します。
論文 参考訳(メタデータ) (2021-04-02T16:59:29Z) - iNeRF: Inverting Neural Radiance Fields for Pose Estimation [68.91325516370013]
Neural RadianceField(NeRF)を「反転」してメッシュフリーポーズ推定を行うフレームワークiNeRFを紹介します。
NeRFはビュー合成のタスクに極めて有効であることが示されている。
論文 参考訳(メタデータ) (2020-12-10T18:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。