論文の概要: Learning to Grasp: from Somewhere to Anywhere
- arxiv url: http://arxiv.org/abs/2310.04349v1
- Date: Fri, 6 Oct 2023 16:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 15:08:35.029688
- Title: Learning to Grasp: from Somewhere to Anywhere
- Title(参考訳): 掴むことを学ぶ: どこかからどこかへ
- Authors: Fran\c{c}ois H\'el\'enon, Johann Huber, Fa\"iz Ben Amar and St\'ephane
Doncieux
- Abstract要約: 品質多様性(QD)法は,ロボット形態の異なる特定のポーズで物体の把握を学習する方法を検討した。
本研究では,新しいオブジェクトポーズにQD生成トラジェクトリを適用するパイプラインを導入する。
何百もの軌道が、複数の物体と異なるロボット装置で現実世界に展開されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic grasping is still a partially solved, multidisciplinary problem where
data-driven techniques play an increasing role. The sparse nature of rewards
make the automatic generation of grasping datasets challenging, especially for
unconventional morphologies or highly actuated end-effectors. Most approaches
for obtaining large-scale datasets rely on numerous human-provided
demonstrations or heavily engineered solutions that do not scale well. Recent
advances in Quality-Diversity (QD) methods have investigated how to learn
object grasping at a specific pose with different robot morphologies. The
present work introduces a pipeline for adapting QD-generated trajectories to
new object poses. Using an RGB-D data stream, the vision pipeline first detects
the targeted object, predicts its 6-DOF pose, and finally tracks it. An
automatically generated reach-and-grasp trajectory can then be adapted by
projecting it relatively to the object frame. Hundreds of trajectories have
been deployed into the real world on several objects and with different robotic
setups: a Franka Research 3 with a parallel gripper and a UR5 with a dexterous
SIH Schunk hand. The transfer ratio obtained when applying transformation to
the object pose matches the one obtained when the object pose matches the
simulation, demonstrating the efficiency of the proposed approach.
- Abstract(参考訳): ロボットによる把持は、データ駆動技術が役割を担っている部分的な解決、多分野的な問題である。
報酬のばらばらな性質は、特に非慣習的形態学や高度にアクティベーションされたエンドエフェクタにおいて、把持データセットの自動生成を困難にする。
大規模なデータセットを取得するためのほとんどのアプローチは、多くの人間によるデモや、スケールしない高度に設計されたソリューションに依存している。
近年のQD(Quality-Diversity)手法の進歩により,ロボット形態の異なる特定のポーズで物体の把握を学習する方法が研究されている。
本研究では,新しいオブジェクトポーズにQD生成トラジェクトリを適用するパイプラインを導入する。
RGB-Dデータストリームを使用して、ビジョンパイプラインはまずターゲットオブジェクトを検出し、6-DOFのポーズを予測し、最後に追跡する。
自動的に生成されたリーチ・アンド・グラス軌道は、オブジェクトフレームに相対的に投影することで適応することができる。
数百もの軌道が、複数の物体と異なるロボット装置で現実世界に展開され、フランカ・リサーチ3は平行グリッパー、UR5は奇抜なSIH Schunkの手である。
対象ポーズに変換を適用する際に得られる伝達比は、対象ポーズがシミュレーションと一致する場合に得られるものと一致し、提案手法の効率を示す。
関連論文リスト
- Spatially Visual Perception for End-to-End Robotic Learning [33.490603706207075]
環境変動に対処するために3次元空間表現を利用する映像ベース空間認識フレームワークを提案する。
提案手法は,新しい画像拡張手法であるAugBlenderと,インターネット規模のデータに基づいてトレーニングされた最先端のモノクロ深度推定モデルを統合する。
論文 参考訳(メタデータ) (2024-11-26T14:23:42Z) - MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。
本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。
我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文 参考訳(メタデータ) (2024-07-24T02:44:41Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。