論文の概要: SimNet: Enabling Robust Unknown Object Manipulation from Pure Synthetic
Data via Stereo
- arxiv url: http://arxiv.org/abs/2106.16118v1
- Date: Wed, 30 Jun 2021 15:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:59:10.126365
- Title: SimNet: Enabling Robust Unknown Object Manipulation from Pure Synthetic
Data via Stereo
- Title(参考訳): SimNet: ステレオによる純粋な合成データから未知のオブジェクト操作を実現する
- Authors: Thomas Kollar, Michael Laskey, Kevin Stone, Brijen Thananjeyan, Mark
Tjersland
- Abstract要約: SimNetは、シミュレーションステレオデータを使用して、単一のマルチヘッドニューラルネットワークとして訓練されている。
SimNetは2次元車検出、未知の物体検出、変形可能な物体キーポイント検出で評価される。
OBBとキーポイント予測を用いて把握位置を推定することにより、未知のオブジェクトのエンドツーエンド操作を行うことができる。
- 参考スコア(独自算出の注目度): 4.317104502755003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot manipulation of unknown objects in unstructured environments is a
challenging problem due to the variety of shapes, materials, arrangements and
lighting conditions. Even with large-scale real-world data collection, robust
perception and manipulation of transparent and reflective objects across
various lighting conditions remain challenging. To address these challenges we
propose an approach to performing sim-to-real transfer of robotic perception.
The underlying model, SimNet, is trained as a single multi-headed neural
network using simulated stereo data as input and simulated object segmentation
masks, 3D oriented bounding boxes (OBBs), object keypoints, and disparity as
output. A key component of SimNet is the incorporation of a learned stereo
sub-network that predicts disparity. SimNet is evaluated on 2D car detection,
unknown object detection, and deformable object keypoint detection and
significantly outperforms a baseline that uses a structured light RGB-D sensor.
By inferring grasp positions using the OBB and keypoint predictions, SimNet can
be used to perform end-to-end manipulation of unknown objects in both easy and
hard scenarios using our fleet of Toyota HSR robots in four home environments.
In unknown object grasping experiments, the predictions from the baseline RGB-D
network and SimNet enable successful grasps of most of the easy objects.
However, the RGB-D baseline only grasps 35% of the hard (e.g., transparent)
objects, while SimNet grasps 95%, suggesting that SimNet can enable robust
manipulation of unknown objects, including transparent objects, in unknown
environments.
- Abstract(参考訳): 非構造環境における未知物体のロボット操作は、形状、材料、配置、照明条件の多様性のために難しい問題である。
大規模な実世界のデータ収集であっても、様々な照明条件における透明で反射的な物体の堅牢な認識と操作は依然として困難である。
これらの課題に対処するために,ロボット知覚のシミュレートから現実への移行を行うアプローチを提案する。
基礎となるモデルであるsimnetは、シミュレーションされたステレオデータを入力として使用し、オブジェクトセグメンテーションマスク、obb(3d oriented bounding box)、オブジェクトキーポイント、出力の格差をシミュレートした、単一のマルチヘッドニューラルネットワークとしてトレーニングされる。
simnetの重要なコンポーネントは、不一致を予測する学習ステレオサブネットワークの組み込みである。
simnetは2dカー検出、未知のオブジェクト検出、変形可能なオブジェクトキーポイント検出で評価され、構造化されたライトrgb-dセンサーを使用するベースラインを大きく上回る。
OBBとキーポイント予測を用いて把握位置を推定することにより、SimNetは4つのホーム環境におけるトヨタHSRロボット群を用いて、容易かつ困難なシナリオの両方において未知物体のエンドツーエンド操作を行うことができる。
未知のオブジェクト把握実験において、ベースラインRGB-DネットワークとSimNetからの予測は、ほとんどの簡単なオブジェクトの把握を成功させる。
しかし、RGB-Dベースラインはハードな(例えば透明な)オブジェクトの35%しか把握していないが、SimNetは95%を把握しており、SimNetは未知の環境において透明なオブジェクトを含む未知のオブジェクトの堅牢な操作を可能にすることを示唆している。
関連論文リスト
- ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation [18.140839442955485]
我々は透明物体の立体深度回復のための視覚変換器に基づくアルゴリズムを開発した。
提案手法は,効率的なデータ生成のためのパラメータ整合,ドメイン適応,物理的に現実的なSim2Realシミュレーションを含む。
実世界のシナリオにおけるSim2Realの例外的な一般化性を示す実験結果を得た。
論文 参考訳(メタデータ) (2024-09-13T15:44:38Z) - Close the Sim2real Gap via Physically-based Structured Light Synthetic Data Simulation [16.69742672616517]
我々は、RGBと物理的にリアルな深度画像を生成する革新的な構造化光シミュレーションシステムを導入する。
ロボット産業の把握シナリオに適したRGBDデータセットを作成します。
sim2realのギャップを減らし、深層学習訓練を強化することにより、深層学習モデルを産業環境に適用しやすくする。
論文 参考訳(メタデータ) (2024-07-17T09:57:14Z) - ASGrasp: Generalizable Transparent Object Reconstruction and Grasping from RGB-D Active Stereo Camera [9.212504138203222]
RGB-Dアクティブステレオカメラを用いた6自由度グリップ検出ネットワークASGraspを提案する。
本システムでは, 透明物体形状再構成において, 生のIRおよびRGB画像を直接利用できることで, 自己を識別する。
実験により、ASGraspは、一般化可能な透明物体把握において90%以上の成功率を達成できることが示された。
論文 参考訳(メタデータ) (2024-05-09T09:44:51Z) - Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - Learning Sim-to-Real Dense Object Descriptors for Robotic Manipulation [4.7246285569677315]
我々はSim-to-Real Dense Object Nets(SRDONs)という,オブジェクトを適切な表現で理解するだけでなく,シミュレートされた実データをピクセル整合性を持った統一された特徴空間にマップする,高密度オブジェクト記述子を提案する。
本研究では,事前学習したSRDONが実世界の訓練をゼロにした各種ロボット作業において,見えない物体や見えない視覚環境の性能を著しく向上させる実験を行った。
論文 参考訳(メタデータ) (2023-04-18T02:28:55Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Optical flow-based branch segmentation for complex orchard environments [73.11023209243326]
シミュレーションでは、シミュレーションでは、シミュレーションされたRGBデータと光フローのみを用いてニューラルネットワークシステムを訓練する。
このニューラルネットワークは、忙しい果樹園環境において、追加の現実世界のトレーニングや、標準カメラ以外の特別な設定や機器を使用することなく、前景の枝のセグメンテーションを行うことができる。
その結果,本システムは高精度であり,手動ラベル付きRGBDデータを用いたネットワークと比較すると,トレーニングセットと異なる環境において,より一貫性と堅牢性を実現していることがわかった。
論文 参考訳(メタデータ) (2022-02-26T03:38:20Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。
現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。
本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。