論文の概要: Solving Challenging Dexterous Manipulation Tasks With Trajectory
Optimisation and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.05104v2
- Date: Sun, 16 May 2021 19:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 11:47:22.642031
- Title: Solving Challenging Dexterous Manipulation Tasks With Trajectory
Optimisation and Reinforcement Learning
- Title(参考訳): 軌道最適化と強化学習による難解な操作課題の解法
- Authors: Henry Charlesworth and Giovanni Montana
- Abstract要約: 人為的なロボットハンドの使い方を自律的に学ぶ訓練エージェントは、様々な複雑な操作タスクを実行できるシステムに繋がる可能性を秘めている。
まず、現在の強化学習と軌跡最適化技術が困難であるような、シミュレーション操作の難易度を課題として紹介する。
次に、これらの環境における既存の手法よりもはるかに優れた性能を示す、単純な軌道最適化を導入する。
- 参考スコア(独自算出の注目度): 14.315501760755609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training agents to autonomously learn how to use anthropomorphic robotic
hands has the potential to lead to systems capable of performing a multitude of
complex manipulation tasks in unstructured and uncertain environments. In this
work, we first introduce a suite of challenging simulated manipulation tasks
that current reinforcement learning and trajectory optimisation techniques find
difficult. These include environments where two simulated hands have to pass or
throw objects between each other, as well as an environment where the agent
must learn to spin a long pen between its fingers. We then introduce a simple
trajectory optimisation that performs significantly better than existing
methods on these environments. Finally, on the challenging PenSpin task we
combine sub-optimal demonstrations generated through trajectory optimisation
with off-policy reinforcement learning, obtaining performance that far exceeds
either of these approaches individually, effectively solving the environment.
Videos of all of our results are available at:
https://dexterous-manipulation.github.io/
- Abstract(参考訳): 人工的なロボットの手の使い方を自律的に学習する訓練エージェントは、非構造的で不確定な環境で複雑な操作タスクを多種多様なシステムで実行できる可能性を持っている。
本稿では,まず,現在の強化学習と軌道最適化手法が困難になるような,シミュレーションによる操作課題の組を導入する。
これには、2つのシミュレートされた手が互いにオブジェクトを渡したり投げたりする必要のある環境や、エージェントが指の間に長いペンを回転させることを学ぶ環境が含まれる。
次に,これらの環境における既存手法よりもはるかに優れた単純な軌道最適化を提案する。
最後に、挑戦的なpenspinタスクでは、軌道最適化によって生成されたサブオプティマイズと、オフポリティカル強化学習を組み合わせることで、これらのアプローチを個別に超えたパフォーマンスを得て、環境を効果的に解決します。
結果の全ビデオは、https://dexterous-manipulation.github.io/で閲覧できます。
関連論文リスト
- Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。
提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。
シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:49:56Z) - Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge [93.4434417387526]
ロボット工学における鍵となるベンチマークタスクとして,Open Vocabulary Mobile Manipulationを提案する。
我々は,この課題に対する解決策を評価するために,シミュレーションと実世界のコンポーネントを兼ね備えたNeurIPS 2023コンペティションを組織した。
シミュレーションと実環境設定の両方で使用される結果と方法論を詳述する。
論文 参考訳(メタデータ) (2024-07-09T15:15:01Z) - SWBT: Similarity Weighted Behavior Transformer with the Imperfect
Demonstration for Robotic Manipulation [32.78083518963342]
SWBT(Simisity Weighted Behavior Transformer)という新しいフレームワークを提案する。
SWBTは、環境との相互作用なしに、専門家と不完全なデモンストレーションの両方から効果的に学習する。
我々は、ロボット操作タスクのオフライン模倣学習環境に不完全なデモンストレーションを統合する試みを初めて行った。
論文 参考訳(メタデータ) (2024-01-17T04:15:56Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - DexPBT: Scaling up Dexterous Manipulation for Hand-Arm Systems with
Population Based Training [10.808149303943948]
マルチフィンガーハンドエンドエフェクタを備えた模擬片腕または2腕ロボットを用いて,デキスタスな物体操作を学習する。
我々は、深層強化学習の探索能力を大幅に増幅できる分散型人口ベーストレーニング(PBT)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-05-20T07:25:27Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - Learning Robotic Manipulation Skills Using an Adaptive Force-Impedance
Action Space [7.116986445066885]
強化学習は、様々な困難な意思決定タスクにおいて、有望な結果をもたらしました。
高速な人間のような適応制御手法は複雑なロボットの相互作用を最適化するが、非構造化タスクに必要なマルチモーダルフィードバックを統合することができない。
本稿では,階層的学習と適応アーキテクチャにおける学習問題を要因として,両世界を最大限に活用することを提案する。
論文 参考訳(メタデータ) (2021-10-19T12:09:02Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Learning compositional models of robot skills for task and motion
planning [39.36562555272779]
センサモレータプリミティブを用いて複雑な長距離操作問題を解決することを学ぶ。
能動的学習とサンプリングに最先端の手法を用いる。
我々は,選択した原始行動の質を計測することで,シミュレーションと実世界の双方でアプローチを評価する。
論文 参考訳(メタデータ) (2020-06-08T20:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。