論文の概要: Neural Fields for Robotic Object Manipulation from a Single Image
- arxiv url: http://arxiv.org/abs/2210.12126v1
- Date: Fri, 21 Oct 2022 17:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:23:23.141377
- Title: Neural Fields for Robotic Object Manipulation from a Single Image
- Title(参考訳): 単一画像からのロボット物体操作のためのニューラルフィールド
- Authors: Valts Blukis, Taeyeop Lee, Jonathan Tremblay, Bowen Wen, In So Kweon,
Kuk-Jin Yoon, Dieter Fox, Stan Birchfield
- Abstract要約: 本稿では,オブジェクトレンダリング,3次元再構成,把握ポーズ予測のための統一的かつコンパクトな表現を提案する。
我々は、最小限のデータと時間を持つ新しいオブジェクトについて、カテゴリレベルの事前と微調整を学習する。
我々は単一視点でNeRFに基づく表現から直接把握ポーズを検索する。
- 参考スコア(独自算出の注目度): 112.32255680399399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a unified and compact representation for object rendering, 3D
reconstruction, and grasp pose prediction that can be inferred from a single
image within a few seconds. We achieve this by leveraging recent advances in
the Neural Radiance Field (NeRF) literature that learn category-level priors
and fine-tune on novel objects with minimal data and time. Our insight is that
we can learn a compact shape representation and extract meaningful additional
information from it, such as grasping poses. We believe this to be the first
work to retrieve grasping poses directly from a NeRF-based representation using
a single viewpoint (RGB-only), rather than going through a secondary network
and/or representation. When compared to prior art, our method is two to three
orders of magnitude smaller while achieving comparable performance at view
reconstruction and grasping. Accompanying our method, we also propose a new
dataset of rendered shoes for training a sim-2-real NeRF method with grasping
poses for different widths of grippers.
- Abstract(参考訳): 本稿では,オブジェクトレンダリングのための統一的かつコンパクトな表現,3次元再構成,および1つの画像から数秒以内に推測可能なポーズ予測の把握について述べる。
近年のNeural Radiance Field(NeRF)文学の進歩を利用して、カテゴリレベルの事前学習と、最小限のデータと時間で新しいオブジェクトの微調整を実現している。
我々の洞察は、コンパクトな形状表現を学習し、ポーズの把握のような意味のある追加情報を抽出できるということである。
これは、二次ネットワークや/または表現を経由するのではなく、単一視点(RGBのみ)を用いて、NeRFベースの表現から直接把握されたポーズを検索する最初の作業であると考えている。
先行技術と比較した場合,本手法は2桁から3桁小さいが,復元と把持では同等の性能が得られる。
また,異なる幅のグリップのポーズをつかむsim-2-real NeRF法を訓練するための新しい靴のデータセットを提案する。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation [26.868351498722884]
ニューラルラジアンスフィールド(NeRF)の集合として表現された3Dモデルにシーンの単一のイメージを変換する手法であるObSuRFを紹介します。
RGB-D入力でのNeRFのトレーニングを可能にする新しい損失を導き出し、より計算的に学習を効率化します。
論文 参考訳(メタデータ) (2021-04-02T16:59:29Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。