論文の概要: ImageManip: Image-based Robotic Manipulation with Affordance-guided Next
View Selection
- arxiv url: http://arxiv.org/abs/2310.09069v1
- Date: Fri, 13 Oct 2023 12:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 13:11:10.298191
- Title: ImageManip: Image-based Robotic Manipulation with Affordance-guided Next
View Selection
- Title(参考訳): ImageManip: Affordance-guided Next View Selectionによるイメージベースロボットマニピュレーション
- Authors: Xiaoqi Li, Yanzi Wang, Yan Shen, Ponomarenko Iaroslav, Haoran Lu,
Qianxu Wang, Boshi An, Jiaming Liu, Hao Dong
- Abstract要約: ロボットが環境と対話するためには、3Dの関節による物体操作が不可欠である。
既存の多くの研究では、操作ポリシーの主要な入力として3Dポイントクラウドを使用している。
RGB画像は、コスト効率の良い装置を用いた高分解能な観察を提供するが、空間的3次元幾何学的情報は欠如している。
このフレームワークは、対象対象物の複数の視点を捉え、その幾何学を補完するために深度情報を推測するように設計されている。
- 参考スコア(独自算出の注目度): 10.162882793554191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of future home-assistant robots, 3D articulated object
manipulation is essential for enabling robots to interact with their
environment. Many existing studies make use of 3D point clouds as the primary
input for manipulation policies. However, this approach encounters challenges
due to data sparsity and the significant cost associated with acquiring point
cloud data, which can limit its practicality. In contrast, RGB images offer
high-resolution observations using cost effective devices but lack spatial 3D
geometric information. To overcome these limitations, we present a novel
image-based robotic manipulation framework. This framework is designed to
capture multiple perspectives of the target object and infer depth information
to complement its geometry. Initially, the system employs an eye-on-hand RGB
camera to capture an overall view of the target object. It predicts the initial
depth map and a coarse affordance map. The affordance map indicates actionable
areas on the object and serves as a constraint for selecting subsequent
viewpoints. Based on the global visual prior, we adaptively identify the
optimal next viewpoint for a detailed observation of the potential manipulation
success area. We leverage geometric consistency to fuse the views, resulting in
a refined depth map and a more precise affordance map for robot manipulation
decisions. By comparing with prior works that adopt point clouds or RGB images
as inputs, we demonstrate the effectiveness and practicality of our method. In
the project webpage (https://sites.google.com/view/imagemanip), real world
experiments further highlight the potential of our method for practical
deployment.
- Abstract(参考訳): 未来のホームアシスタントロボットの領域では、ロボットが環境と対話できるようにするために3次元関節オブジェクト操作が不可欠である。
既存の研究の多くは、操作ポリシーの主要な入力として3Dポイントクラウドを使用している。
しかし、このアプローチは、データのばらつきとポイントクラウドデータ取得に伴う大幅なコストによる課題に直面するため、実用性を制限することができる。
対照的に、RGB画像はコスト効率の良い装置を用いた高分解能な観察を提供するが、空間的3次元幾何学的情報は欠如している。
これらの限界を克服するために,我々は新しい画像ベースロボットマニピュレーションフレームワークを提案する。
このフレームワークは、対象オブジェクトの複数の視点をキャプチャし、その形状を補完するために深度情報を推論するように設計されている。
当初、システムは対象物の全体像を捉えるために、目玉RGBカメラを使用していた。
初期深度マップと粗い余裕マップを予測する。
代価マップはオブジェクトのアクション可能な領域を示し、後続の視点を選択するための制約として機能する。
グローバル・ビジュアル・プレファレンスに基づき, 潜在操作成功領域の詳細な観察に最適な次の視点を適応的に同定する。
我々は幾何学的整合性を利用してビューを融合し、より精巧な深度マップとロボット操作決定のためのより正確な可測マップを得る。
点雲やRGB画像を入力として利用する先行研究と比較することにより,本手法の有効性と実用性を示す。
プロジェクトwebページ(https://sites.google.com/view/imagemanip)では、実世界の実験が、実用的なデプロイ方法の可能性をさらに強調しています。
関連論文リスト
- FusionSense: Bridging Common Sense, Vision, and Touch for Robust Sparse-View Reconstruction [17.367277970910813]
人間は、常識の知識を視覚や触覚からの感覚入力と密接に統合し、周囲を理解する。
FusionSenseは、ロボットが視覚や触覚センサーから高度に疎らな観察を行い、基礎モデルから事前情報を融合することのできる、新しい3D再構成フレームワークである。
論文 参考訳(メタデータ) (2024-10-10T18:07:07Z) - 3D Foundation Models Enable Simultaneous Geometry and Pose Estimation of Grasped Objects [13.58353565350936]
本研究では,ロボットが把握した物体の形状と姿勢を共同で推定する手法を提案する。
提案手法は,推定幾何をロボットの座標フレームに変換する。
我々は,実世界の多様な物体の集合を保持するロボットマニピュレータに対する我々のアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2024-07-14T21:02:55Z) - 3D Feature Distillation with Object-Centric Priors [9.626027459292926]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。
提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文 参考訳(メタデータ) (2024-06-26T20:16:49Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Leveraging Single-View Images for Unsupervised 3D Point Cloud Completion [53.93172686610741]
Cross-PCCは3次元完全点雲を必要としない教師なしの点雲補完法である。
2次元画像の相補的な情報を活用するために,単視点RGB画像を用いて2次元特徴を抽出する。
我々の手法は、いくつかの教師付き手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-12-01T15:11:21Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z) - A Long Horizon Planning Framework for Manipulating Rigid Pointcloud
Objects [25.428781562909606]
本稿では,剛体物体の操作に伴う長期計画問題の解決のための枠組みを提案する。
提案手法はオブジェクトサブゴールの空間における計画であり,ロボットとオブジェクトの相互作用のダイナミクスに関する推論からプランナーを解放する。
論文 参考訳(メタデータ) (2020-11-16T18:59:33Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。