論文の概要: Transferable Active Grasping and Real Embodied Dataset
- arxiv url: http://arxiv.org/abs/2004.13358v1
- Date: Tue, 28 Apr 2020 08:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:37:47.385270
- Title: Transferable Active Grasping and Real Embodied Dataset
- Title(参考訳): 転送可能な能動把持と実体型データセット
- Authors: Xiangyu Chen, Zelin Ye, Jiankai Sun, Yuda Fan, Fang Hu, Chenxi Wang,
Cewu Lu
- Abstract要約: ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。
現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。
本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
- 参考スコア(独自算出の注目度): 48.887567134129306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grasping in cluttered scenes is challenging for robot vision systems, as
detection accuracy can be hindered by partial occlusion of objects. We adopt a
reinforcement learning (RL) framework and 3D vision architectures to search for
feasible viewpoints for grasping by the use of hand-mounted RGB-D cameras. To
overcome the disadvantages of photo-realistic environment simulation, we
propose a large-scale dataset called Real Embodied Dataset (RED), which
includes full-viewpoint real samples on the upper hemisphere with amodal
annotation and enables a simulator that has real visual feedback. Based on this
dataset, a practical 3-stage transferable active grasping pipeline is
developed, that is adaptive to unseen clutter scenes. In our pipeline, we
propose a novel mask-guided reward to overcome the sparse reward issue in
grasping and ensure category-irrelevant behavior. The grasping pipeline and its
possible variants are evaluated with extensive experiments both in simulation
and on a real-world UR-5 robotic arm.
- Abstract(参考訳): 乱雑なシーンでのグラッピングは、検出精度が物体の部分閉塞によって妨げられるため、ロボットビジョンシステムでは困難である。
我々は,手持ちのRGB-Dカメラを用いて把握可能な視点を探索するために,強化学習(RL)フレームワークと3次元視覚アーキテクチャを採用する。
写真リアル環境シミュレーションの欠点を克服するため,上半球のフルビューポイント実検体とアモーダルアノテーションを併用し,実際の視覚的フィードバックを持つシミュレータを実現する,Real Embodied Dataset (RED) と呼ばれる大規模データセットを提案する。
このデータセットに基づいて, 目立たないクラッタシーンに適応した実用的な3段階移動可能なアクティブ把持パイプラインを開発した。
本稿では,カテゴリ非関連行動の把握と確保において,少なからぬ報酬問題を克服する新たなマスク誘導報酬を提案する。
グリップパイプラインとその可能な変種は、シミュレーションと現実世界のUR-5ロボットアームの両方で広範な実験によって評価される。
関連論文リスト
- ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation [18.140839442955485]
我々は透明物体の立体深度回復のための視覚変換器に基づくアルゴリズムを開発した。
提案手法は,効率的なデータ生成のためのパラメータ整合,ドメイン適応,物理的に現実的なSim2Realシミュレーションを含む。
実世界のシナリオにおけるSim2Realの例外的な一般化性を示す実験結果を得た。
論文 参考訳(メタデータ) (2024-09-13T15:44:38Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks [47.07188762367792]
ARSimは3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的としたフレームワークである。
実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。
結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-03-22T17:49:11Z) - Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - Reconstructing Objects in-the-wild for Realistic Sensor Simulation [41.55571880832957]
我々は,スパース・イン・ザ・ワイルドデータから正確な幾何学的および現実的な外観を推定する新しい手法であるNeuSimを提案する。
物体の外観を物理にインスパイアされた頑健な反射率表現でモデル化し,実測データに有効である。
実験の結果,NeuSimはスパース・トレーニング・ビューを持つ難解なシナリオに対して,強力なビュー合成性能を有することがわかった。
論文 参考訳(メタデータ) (2023-11-09T18:58:22Z) - Aerial Monocular 3D Object Detection [46.26215100532241]
本研究は,2次元画像空間と3次元物理空間の両方において,空中単分子物体検出を実現するために,DVDETというデュアルビュー検出システムを提案する。
この課題に対処するため,AirSIMとCARLAの共同シミュレーションによって生成されたAM3D-Simという新しい大規模シミュレーションデータセットと,DJI Matrice 300 RTKによって収集されたAM3D-Realという新しい実世界の空中データセットを提案する。
論文 参考訳(メタデータ) (2022-08-08T08:32:56Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - Recovering and Simulating Pedestrians in the Wild [81.38135735146015]
本研究では,自動車の走行によって野生で捕獲されたセンサから歩行者の形状と動きを復元することを提案する。
再建された歩行者資産銀行をリアルな3Dシミュレーションシステムに組み込む。
シミュレーションしたLiDARデータを用いて,視覚知覚タスクに必要な実世界のデータ量を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2020-11-16T17:16:32Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。