論文の概要: Perceiving Unseen 3D Objects by Poking the Objects
- arxiv url: http://arxiv.org/abs/2302.13375v1
- Date: Sun, 26 Feb 2023 18:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:37:38.397798
- Title: Perceiving Unseen 3D Objects by Poking the Objects
- Title(参考訳): 物体をポーキングして見えない3Dオブジェクトを認識する
- Authors: Linghao Chen, Yunzhou Song, Hujun Bao, Xiaowei Zhou
- Abstract要約: 本稿では,3Dオブジェクトの自動検出と再構成を行うポーキング方式を提案する。
ポーキングプロセスにより、ロボットは見えない3Dオブジェクトを発見できるだけでなく、多視点で観察することもできる。
実世界のデータを用いた実験により,本手法は高品質な未知の3Dオブジェクトを教師なしで発見・再構成できることが判明した。
- 参考スコア(独自算出の注目度): 45.70559270947074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel approach to interactive 3D object perception for robots.
Unlike previous perception algorithms that rely on known object models or a
large amount of annotated training data, we propose a poking-based approach
that automatically discovers and reconstructs 3D objects. The poking process
not only enables the robot to discover unseen 3D objects but also produces
multi-view observations for 3D reconstruction of the objects. The reconstructed
objects are then memorized by neural networks with regular supervised learning
and can be recognized in new test images. The experiments on real-world data
show that our approach could unsupervisedly discover and reconstruct unseen 3D
objects with high quality, and facilitate real-world applications such as
robotic grasping. The code and supplementary materials are available at the
project page: https://zju3dv.github.io/poking_perception.
- Abstract(参考訳): ロボットのためのインタラクティブな3Dオブジェクト認識のための新しいアプローチを提案する。
既知のオブジェクトモデルや大量の注釈付きトレーニングデータに依存する従来の知覚アルゴリズムとは異なり、ポーキングに基づく3Dオブジェクトの自動検出と再構成を提案する。
ポンキングプロセスにより、ロボットは見えない3dオブジェクトを発見できるだけでなく、オブジェクトの3d再構成のためのマルチビュー観察もできる。
再構成されたオブジェクトは、通常の教師付き学習を伴うニューラルネットワークによって記憶され、新しいテスト画像で認識される。
実世界データを用いた実験により, ロボットによる把持などの実世界の応用が容易な3dオブジェクトを無監督で発見し, 再構成できることが確認された。
コードと補足資料はプロジェクトのページで入手できる。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Understanding 3D Object Interaction from a Single Image [18.681222155879656]
人間は単一のイメージを、対話を許す複数の潜在的なオブジェクトとして容易に理解することができる。
私たちは、知的エージェントが3Dシーンをよりよく探索したり、オブジェクトを操作できるように、同様の能力をマシンに提供したいと考えています。
論文 参考訳(メタデータ) (2023-05-16T17:59:26Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Seeing by haptic glance: reinforcement learning-based 3D object
Recognition [31.80213713136647]
対象物と指の間の触覚接触数に制限があり、対象物を見ることなく3D認識を行うことができる。
この能力は認知神経科学における「触覚的視線」と定義される。
既存の3D認識モデルのほとんどは、高密度な3Dデータに基づいて開発された。
触覚探索によって3Dデータを収集するためにロボットが使用される多くの実生活のユースケースでは、限られた数の3Dポイントしか収集できない。
アクティブに収集された3Dで客観的な3D認識と同時に触覚探査手順を最適化する新しい強化学習ベースのフレームワークが提案される。
論文 参考訳(メタデータ) (2021-02-15T15:38:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。