論文の概要: Learning to Grasp: from Somewhere to Anywhere
- arxiv url: http://arxiv.org/abs/2310.04349v1
- Date: Fri, 6 Oct 2023 16:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 15:08:35.029688
- Title: Learning to Grasp: from Somewhere to Anywhere
- Title(参考訳): 掴むことを学ぶ: どこかからどこかへ
- Authors: Fran\c{c}ois H\'el\'enon, Johann Huber, Fa\"iz Ben Amar and St\'ephane
Doncieux
- Abstract要約: 品質多様性(QD)法は,ロボット形態の異なる特定のポーズで物体の把握を学習する方法を検討した。
本研究では,新しいオブジェクトポーズにQD生成トラジェクトリを適用するパイプラインを導入する。
何百もの軌道が、複数の物体と異なるロボット装置で現実世界に展開されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic grasping is still a partially solved, multidisciplinary problem where
data-driven techniques play an increasing role. The sparse nature of rewards
make the automatic generation of grasping datasets challenging, especially for
unconventional morphologies or highly actuated end-effectors. Most approaches
for obtaining large-scale datasets rely on numerous human-provided
demonstrations or heavily engineered solutions that do not scale well. Recent
advances in Quality-Diversity (QD) methods have investigated how to learn
object grasping at a specific pose with different robot morphologies. The
present work introduces a pipeline for adapting QD-generated trajectories to
new object poses. Using an RGB-D data stream, the vision pipeline first detects
the targeted object, predicts its 6-DOF pose, and finally tracks it. An
automatically generated reach-and-grasp trajectory can then be adapted by
projecting it relatively to the object frame. Hundreds of trajectories have
been deployed into the real world on several objects and with different robotic
setups: a Franka Research 3 with a parallel gripper and a UR5 with a dexterous
SIH Schunk hand. The transfer ratio obtained when applying transformation to
the object pose matches the one obtained when the object pose matches the
simulation, demonstrating the efficiency of the proposed approach.
- Abstract(参考訳): ロボットによる把持は、データ駆動技術が役割を担っている部分的な解決、多分野的な問題である。
報酬のばらばらな性質は、特に非慣習的形態学や高度にアクティベーションされたエンドエフェクタにおいて、把持データセットの自動生成を困難にする。
大規模なデータセットを取得するためのほとんどのアプローチは、多くの人間によるデモや、スケールしない高度に設計されたソリューションに依存している。
近年のQD(Quality-Diversity)手法の進歩により,ロボット形態の異なる特定のポーズで物体の把握を学習する方法が研究されている。
本研究では,新しいオブジェクトポーズにQD生成トラジェクトリを適用するパイプラインを導入する。
RGB-Dデータストリームを使用して、ビジョンパイプラインはまずターゲットオブジェクトを検出し、6-DOFのポーズを予測し、最後に追跡する。
自動的に生成されたリーチ・アンド・グラス軌道は、オブジェクトフレームに相対的に投影することで適応することができる。
数百もの軌道が、複数の物体と異なるロボット装置で現実世界に展開され、フランカ・リサーチ3は平行グリッパー、UR5は奇抜なSIH Schunkの手である。
対象ポーズに変換を適用する際に得られる伝達比は、対象ポーズがシミュレーションと一致する場合に得られるものと一致し、提案手法の効率を示す。
関連論文リスト
- Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - PillarGrid: Deep Learning-based Cooperative Perception for 3D Object
Detection from Onboard-Roadside LiDAR [15.195933965761645]
我々は,複数の3次元LiDARからの情報を融合した新しい協調認識手法であるtextitPillarGridを提案する。
PillarGrid は,1) 点雲の協調前処理,2) 軸方向のボキセル化と特徴抽出,3) 複数のセンサからの特徴のグリッド方向の深層融合,4) 畳み込みニューラルネットワーク(CNN) に基づく3Dオブジェクト検出である。
広汎な実験により、PillarGridはSOTA単一LiDARに基づく3Dオブジェクト検出法よりも精度と範囲を大きなマージンで上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-12T02:28:41Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Distributed Reinforcement Learning of Targeted Grasping with Active
Vision for Mobile Manipulators [4.317864702902075]
移動体マニピュレータのための最初のRLベースのシステムを提案する。これは、(a)対象対象物に対する目標把握の一般化を実現し、(b)隠蔽対象物による乱れたシーンの複雑な把握戦略を学習し、(c)可動式手首カメラでアクティブなビジョンを実行し、オブジェクトの発見をより良くする。
シミュレーション環境でシステムのトレーニングと評価を行い,性能向上,動作解析,実環境への移動といった重要なコンポーネントを特定した。
論文 参考訳(メタデータ) (2020-07-16T02:47:48Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。