論文の概要: One-Shot Neural Fields for 3D Object Understanding
- arxiv url: http://arxiv.org/abs/2210.12126v3
- Date: Wed, 9 Aug 2023 00:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 18:18:02.361053
- Title: One-Shot Neural Fields for 3D Object Understanding
- Title(参考訳): 3次元物体理解のためのワンショットニューラルフィールド
- Authors: Valts Blukis, Taeyeop Lee, Jonathan Tremblay, Bowen Wen, In So Kweon,
Kuk-Jin Yoon, Dieter Fox, Stan Birchfield
- Abstract要約: ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
- 参考スコア(独自算出の注目度): 112.32255680399399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a unified and compact scene representation for robotics, where
each object in the scene is depicted by a latent code capturing geometry and
appearance. This representation can be decoded for various tasks such as novel
view rendering, 3D reconstruction (e.g. recovering depth, point clouds, or
voxel maps), collision checking, and stable grasp prediction. We build our
representation from a single RGB input image at test time by leveraging recent
advances in Neural Radiance Fields (NeRF) that learn category-level priors on
large multiview datasets, then fine-tune on novel objects from one or few
views. We expand the NeRF model for additional grasp outputs and explore ways
to leverage this representation for robotics. At test-time, we build the
representation from a single RGB input image observing the scene from only one
viewpoint. We find that the recovered representation allows rendering from
novel views, including of occluded object parts, and also for predicting
successful stable grasps. Grasp poses can be directly decoded from our latent
representation with an implicit grasp decoder. We experimented in both
simulation and real world and demonstrated the capability for robust robotic
grasping using such compact representation. Website:
https://nerfgrasp.github.io
- Abstract(参考訳): 本稿では,ロボット工学のための統一的でコンパクトなシーン表現について述べる。シーン内の各オブジェクトは,幾何学や外観を捉えた潜在コードで表現される。
この表現は、新しいビューレンダリング、3D再構成(例えば、深度回復、点雲、ボクセルマップ)、衝突チェック、安定した把握予測といった様々なタスクのためにデコードできる。
我々は、大規模なマルチビューデータセットでカテゴリレベルの先行を学習し、1つか数つのビューから新しいオブジェクトを微調整するNeural Radiance Fields(NeRF)の最近の進歩を活用して、テスト時に単一のRGB入力画像から表現を構築する。
我々は,この表現をロボット工学に活用する方法を探るため,NeRFモデルを拡張した。
テスト時には、1つの視点からシーンを観察する単一のRGB入力画像から表現を構築する。
復元された表現は、隠蔽対象部分を含む新しいビューからのレンダリングを可能にし、安定した把握を成功させる。
Graspのポーズは、暗黙のグリップデコーダを使って、潜在表現から直接デコードできる。
シミュレーションと実世界の両方で実験を行い,このようなコンパクト表現を用いたロバストなロボット把持能力を示した。
ウェブサイト:https://nerfgrasp.github.io
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation [26.868351498722884]
ニューラルラジアンスフィールド(NeRF)の集合として表現された3Dモデルにシーンの単一のイメージを変換する手法であるObSuRFを紹介します。
RGB-D入力でのNeRFのトレーニングを可能にする新しい損失を導き出し、より計算的に学習を効率化します。
論文 参考訳(メタデータ) (2021-04-02T16:59:29Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。