論文の概要: Asymmetric self-play for automatic goal discovery in robotic
manipulation
- arxiv url: http://arxiv.org/abs/2101.04882v1
- Date: Wed, 13 Jan 2021 05:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 08:08:22.897961
- Title: Asymmetric self-play for automatic goal discovery in robotic
manipulation
- Title(参考訳): ロボットマニピュレーションにおける目標自動発見のための非対称自己再生
- Authors: OpenAI OpenAI, Matthias Plappert, Raul Sampedro, Tao Xu, Ilge Akkaya,
Vineet Kosaraju, Peter Welinder, Ruben D'Sa, Arthur Petron, Henrique P. d.O.
Pinto, Alex Paino, Hyeonwoo Noh, Lilian Weng, Qiming Yuan, Casey Chu,
Wojciech Zaremba
- Abstract要約: 私たちは、AliceとBobという2人のエージェントがゲームをするゴール発見のために非対称な自己プレイに依存しています。
この手法は,人間の事前知識を必要とせずに,高度に多様で複雑な目標を発見できることを示す。
私たちのメソッドはスケールし、多くの目に見えないタスクに一般化できる単一のポリシーになります。
- 参考スコア(独自算出の注目度): 12.573331269520077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We train a single, goal-conditioned policy that can solve many robotic
manipulation tasks, including tasks with previously unseen goals and objects.
We rely on asymmetric self-play for goal discovery, where two agents, Alice and
Bob, play a game. Alice is asked to propose challenging goals and Bob aims to
solve them. We show that this method can discover highly diverse and complex
goals without any human priors. Bob can be trained with only sparse rewards,
because the interaction between Alice and Bob results in a natural curriculum
and Bob can learn from Alice's trajectory when relabeled as a goal-conditioned
demonstration. Finally, our method scales, resulting in a single policy that
can generalize to many unseen tasks such as setting a table, stacking blocks,
and solving simple puzzles. Videos of a learned policy is available at
https://robotics-self-play.github.io.
- Abstract(参考訳): 私たちは、これまで見つからなかったゴールやオブジェクトを含む多くのロボット操作タスクを解決できる、単一の目標条件のポリシーをトレーニングします。
ゴール発見には、アリスとボブという2人のエージェントがゲームをする非対称なセルフプレイに依存しています。
アリスは挑戦的な目標を提案し、ボブはそれを解決しようとする。
この手法は,人間の事前知識を必要とせずに,高度に多様で複雑な目標を発見できることを示す。
なぜなら、アリスとボブの相互作用は自然のカリキュラムとなり、ボブはゴール条件のデモンストレーションとしてリラベルされたときにアリスの軌道から学ぶことができるからである。
その結果、テーブルの設定、ブロックの積み重ね、単純なパズルの解法など、目に見えない多くのタスクに一般化できる単一のポリシーが得られた。
学習したポリシーのビデオはhttps://robotics-self-play.github.ioで閲覧できる。
関連論文リスト
- Unsupervised Skill Discovery for Robotic Manipulation through Automatic Task Generation [17.222197596599685]
本稿では,多数の自律的タスクを解くことで構成可能な振る舞いを発見するスキル学習手法を提案する。
本手法は,ロボットが環境内の物体と連続的かつ堅牢に対話することを可能にするスキルを学習する。
学習したスキルは、シミュレーションだけでなく、本物のロボットプラットフォーム上でも、目に見えない操作タスクのセットを解決するために使用できる。
論文 参考訳(メタデータ) (2024-10-07T09:19:13Z) - Additive-Effect Assisted Learning [17.408937094829007]
我々はエージェントAliceのための2段階学習アーキテクチャを開発し、別のエージェントBobの助けを求める。
最初の段階では、Alice が Bob のデータの有用性を決定するために、プライバシを意識した仮説テストベースのスクリーニング手法を提案する。
Alice は,理論的にも数値的にも,訓練が集中的なデータからであるかのように,オラクルのパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2024-05-13T23:24:25Z) - Quantum advantage in a unified scenario and secure detection of
resources [55.2480439325792]
我々は、量子優位性を持つ異なるアプローチを研究するために単一のタスクを考える。
我々は、キュービット通信の全体プロセスにおける最適成功確率が、cbit通信のそれよりも高いことを示す。
論文 参考訳(メタデータ) (2023-09-22T23:06:20Z) - Offline Reinforcement Learning for Human-Guided Human-Machine
Interaction with Private Information [110.42866062614912]
個人情報を含む人間と機械の相互作用について検討する。
本ゲームでは,オフライン強化学習(RL)に注目した。
そこで我々は,新たな識別結果を開発し,それを用いて新たな非政治評価手法を提案する。
論文 参考訳(メタデータ) (2022-12-23T06:26:44Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals [8.98526174345299]
本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
論文 参考訳(メタデータ) (2020-08-05T12:19:14Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。