論文の概要: SimNet: Enabling Robust Unknown Object Manipulation from Pure Synthetic
Data via Stereo
- arxiv url: http://arxiv.org/abs/2106.16118v1
- Date: Wed, 30 Jun 2021 15:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:59:10.126365
- Title: SimNet: Enabling Robust Unknown Object Manipulation from Pure Synthetic
Data via Stereo
- Title(参考訳): SimNet: ステレオによる純粋な合成データから未知のオブジェクト操作を実現する
- Authors: Thomas Kollar, Michael Laskey, Kevin Stone, Brijen Thananjeyan, Mark
Tjersland
- Abstract要約: SimNetは、シミュレーションステレオデータを使用して、単一のマルチヘッドニューラルネットワークとして訓練されている。
SimNetは2次元車検出、未知の物体検出、変形可能な物体キーポイント検出で評価される。
OBBとキーポイント予測を用いて把握位置を推定することにより、未知のオブジェクトのエンドツーエンド操作を行うことができる。
- 参考スコア(独自算出の注目度): 4.317104502755003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot manipulation of unknown objects in unstructured environments is a
challenging problem due to the variety of shapes, materials, arrangements and
lighting conditions. Even with large-scale real-world data collection, robust
perception and manipulation of transparent and reflective objects across
various lighting conditions remain challenging. To address these challenges we
propose an approach to performing sim-to-real transfer of robotic perception.
The underlying model, SimNet, is trained as a single multi-headed neural
network using simulated stereo data as input and simulated object segmentation
masks, 3D oriented bounding boxes (OBBs), object keypoints, and disparity as
output. A key component of SimNet is the incorporation of a learned stereo
sub-network that predicts disparity. SimNet is evaluated on 2D car detection,
unknown object detection, and deformable object keypoint detection and
significantly outperforms a baseline that uses a structured light RGB-D sensor.
By inferring grasp positions using the OBB and keypoint predictions, SimNet can
be used to perform end-to-end manipulation of unknown objects in both easy and
hard scenarios using our fleet of Toyota HSR robots in four home environments.
In unknown object grasping experiments, the predictions from the baseline RGB-D
network and SimNet enable successful grasps of most of the easy objects.
However, the RGB-D baseline only grasps 35% of the hard (e.g., transparent)
objects, while SimNet grasps 95%, suggesting that SimNet can enable robust
manipulation of unknown objects, including transparent objects, in unknown
environments.
- Abstract(参考訳): 非構造環境における未知物体のロボット操作は、形状、材料、配置、照明条件の多様性のために難しい問題である。
大規模な実世界のデータ収集であっても、様々な照明条件における透明で反射的な物体の堅牢な認識と操作は依然として困難である。
これらの課題に対処するために,ロボット知覚のシミュレートから現実への移行を行うアプローチを提案する。
基礎となるモデルであるsimnetは、シミュレーションされたステレオデータを入力として使用し、オブジェクトセグメンテーションマスク、obb(3d oriented bounding box)、オブジェクトキーポイント、出力の格差をシミュレートした、単一のマルチヘッドニューラルネットワークとしてトレーニングされる。
simnetの重要なコンポーネントは、不一致を予測する学習ステレオサブネットワークの組み込みである。
simnetは2dカー検出、未知のオブジェクト検出、変形可能なオブジェクトキーポイント検出で評価され、構造化されたライトrgb-dセンサーを使用するベースラインを大きく上回る。
OBBとキーポイント予測を用いて把握位置を推定することにより、SimNetは4つのホーム環境におけるトヨタHSRロボット群を用いて、容易かつ困難なシナリオの両方において未知物体のエンドツーエンド操作を行うことができる。
未知のオブジェクト把握実験において、ベースラインRGB-DネットワークとSimNetからの予測は、ほとんどの簡単なオブジェクトの把握を成功させる。
しかし、RGB-Dベースラインはハードな(例えば透明な)オブジェクトの35%しか把握していないが、SimNetは95%を把握しており、SimNetは未知の環境において透明なオブジェクトを含む未知のオブジェクトの堅牢な操作を可能にすることを示唆している。
関連論文リスト
- Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - STOPNet: Multiview-based 6-DoF Suction Detection for Transparent Objects
on Production Lines [9.258345770382688]
STOPNetは生産ライン上での6-DoFオブジェクトの吸引検出のためのフレームワークである。
本稿では,マルチビューステレオに基づくRGB入力のみに依存して,生産ライン上のシーンを再構築する新しいフレームワークを提案する。
本手法は,シミュレーションと実世界の両方において,新しい環境,新しいアレンジ,新しいオブジェクトに一般化する。
論文 参考訳(メタデータ) (2023-10-09T13:39:06Z) - Learning Sim-to-Real Dense Object Descriptors for Robotic Manipulation [4.7246285569677315]
我々はSim-to-Real Dense Object Nets(SRDONs)という,オブジェクトを適切な表現で理解するだけでなく,シミュレートされた実データをピクセル整合性を持った統一された特徴空間にマップする,高密度オブジェクト記述子を提案する。
本研究では,事前学習したSRDONが実世界の訓練をゼロにした各種ロボット作業において,見えない物体や見えない視覚環境の性能を著しく向上させる実験を行った。
論文 参考訳(メタデータ) (2023-04-18T02:28:55Z) - MVTrans: Multi-View Perception of Transparent Objects [29.851395075937255]
我々は、RGB-Dセンサから信頼できない深度マップを除外し、ステレオ法を拡張した。
提案手法であるMVTransは,複数の知覚能力を持つエンドツーエンドのマルチビューアーキテクチャである。
我々は、新しい手続き型フォトリアリスティックデータセット生成パイプラインを構築し、大規模透明なオブジェクト検出データセットを作成する。
論文 参考訳(メタデータ) (2023-02-22T22:45:28Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Optical flow-based branch segmentation for complex orchard environments [73.11023209243326]
シミュレーションでは、シミュレーションでは、シミュレーションされたRGBデータと光フローのみを用いてニューラルネットワークシステムを訓練する。
このニューラルネットワークは、忙しい果樹園環境において、追加の現実世界のトレーニングや、標準カメラ以外の特別な設定や機器を使用することなく、前景の枝のセグメンテーションを行うことができる。
その結果,本システムは高精度であり,手動ラベル付きRGBDデータを用いたネットワークと比較すると,トレーニングセットと異なる環境において,より一貫性と堅牢性を実現していることがわかった。
論文 参考訳(メタデータ) (2022-02-26T03:38:20Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。
現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。
本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。