論文の概要: Learning Dexterous Manipulation from Exemplar Object Trajectories and
Pre-Grasps
- arxiv url: http://arxiv.org/abs/2209.11221v1
- Date: Thu, 22 Sep 2022 17:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:08:45.659192
- Title: Learning Dexterous Manipulation from Exemplar Object Trajectories and
Pre-Grasps
- Title(参考訳): 模擬物体軌道とプレグラフからのデキスタスマニピュレーションの学習
- Authors: Sudeep Dasari, Abhinav Gupta, Vikash Kumar
- Abstract要約: Dexterous Manipulation (PGDM) フレームワークは様々なデキスタラスな操作動作を生成する。
PGDMの中核は、よく知られたロボット構造であるプレグラスである。
これらの主張を徹底的に検証するために、50種類の操作タスクのベンチマークであるTCDMを紹介する。
- 参考スコア(独自算出の注目度): 34.63975621178365
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning diverse dexterous manipulation behaviors with assorted objects
remains an open grand challenge. While policy learning methods offer a powerful
avenue to attack this problem, they require extensive per-task engineering and
algorithmic tuning. This paper seeks to escape these constraints, by developing
a Pre-Grasp informed Dexterous Manipulation (PGDM) framework that generates
diverse dexterous manipulation behaviors, without any task-specific reasoning
or hyper-parameter tuning. At the core of PGDM is a well known robotics
construct, pre-grasps (i.e. the hand-pose preparing for object interaction).
This simple primitive is enough to induce efficient exploration strategies for
acquiring complex dexterous manipulation behaviors. To exhaustively verify
these claims, we introduce TCDM, a benchmark of 50 diverse manipulation tasks
defined over multiple objects and dexterous manipulators. Tasks for TCDM are
defined automatically using exemplar object trajectories from various sources
(animators, human behaviors, etc.), without any per-task engineering and/or
supervision. Our experiments validate that PGDM's exploration strategy, induced
by a surprisingly simple ingredient (single pre-grasp pose), matches the
performance of prior methods, which require expensive per-task feature/reward
engineering, expert supervision, and hyper-parameter tuning. For animated
visualizations, trained policies, and project code, please refer to:
https://pregrasps.github.io/
- Abstract(参考訳): さまざまなオブジェクトによる多様なデクスターな操作の動作を学ぶことは、まだ大きな課題です。
ポリシー学習手法はこの問題に対処するための強力な手段を提供するが、それらはタスクごとのエンジニアリングとアルゴリズムのチューニングを必要とする。
本稿では,タスク固有の推論やハイパーパラメータチューニングを必要とせず,多様なデクスタース操作行動を生成するpgdm(pre-grasp informed dexterous manipulation)フレームワークを開発することにより,これらの制約を回避しようとする。
PGDMの中核は、よく知られたロボット構造であるプレグラス(即ち、オブジェクトの相互作用のための手動準備)である。
この単純なプリミティブは、複雑な操作行動を取得するための効率的な探索戦略を誘導するのに十分である。
これらの主張を徹底的に検証するために、複数のオブジェクトとデキスタスマニピュレータ上で定義された50の多様な操作タスクのベンチマークであるTCDMを紹介する。
TCDMのタスクは、様々なソース(アニメーター、人間の振る舞いなど)からの典型的なオブジェクトトラジェクトリを使用して、タスクごとのエンジニアリングや監督なしに自動的に定義される。
実験の結果,PGDMの探索戦略は驚くほど単純な成分(シングルプレグレープポーズ)によって引き起こされるものであり,従来の手法と同等であり,高いタスク毎の機能/リワードエンジニアリング,専門家の監督,ハイパーパラメータチューニングが必要であった。
アニメーション、トレーニングされたポリシー、プロジェクトコードについては、https://pregrasps.github.io/を参照してください。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。
人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-12T17:59:07Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Learning Extrinsic Dexterity with Parameterized Manipulation Primitives [8.7221770019454]
我々は、オブジェクトのポーズを変えるために環境を利用する一連のアクションを学習する。
我々のアプローチは、オブジェクトとグリップと環境の間の相互作用を利用してオブジェクトの状態を制御することができる。
拘束されたテーブルトップワークスペースから様々な重量,形状,摩擦特性の箱状物体を選別する手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T21:28:23Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - CLAS: Coordinating Multi-Robot Manipulation with Central Latent Action
Spaces [9.578169216444813]
本稿では,異なるエージェント間で共有される学習された潜在行動空間を通じて,マルチロボット操作を協調する手法を提案する。
シミュレーションされたマルチロボット操作タスクにおいて本手法を検証し,サンプル効率と学習性能の観点から,従来のベースラインよりも改善したことを示す。
論文 参考訳(メタデータ) (2022-11-28T23:20:47Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Dexterous Imitation Made Easy: A Learning-Based Framework for Efficient
Dexterous Manipulation [13.135013586592585]
DIME(Dexterous Made Easy)は、デクスタラスな操作のための新しい模倣学習フレームワークである。
DIMEは、人間のオペレーターを観察し、ロボットハンドを遠隔操作するために、単一のRGBカメラしか必要としない。
シミュレーションと実ロボットベンチマークの両方において、複雑な手動操作タスクを解くためにDIMEを使用できることを示す。
論文 参考訳(メタデータ) (2022-03-24T17:58:54Z) - Augmenting Reinforcement Learning with Behavior Primitives for Diverse
Manipulation Tasks [17.13584584844048]
本研究では,MAnipulation Primitive-augmented reinforcement LEarning (MAPLE)を導入した。
我々は、プリミティブを巻き込み、それらの実行を入力パラメータでインスタンス化する階層的なポリシーを開発する。
我々は、MAPLEが、シミュレーション操作タスクのスイートにおいて、ベースラインアプローチをかなりのマージンで上回ることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。