論文の概要: Physically Embedded Planning Problems: New Challenges for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2009.05524v2
- Date: Thu, 29 Oct 2020 17:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 20:48:09.972226
- Title: Physically Embedded Planning Problems: New Challenges for Reinforcement
Learning
- Title(参考訳): 物理的に組込み型計画問題:強化学習の新たな課題
- Authors: Mehdi Mirza, Andrew Jaegle, Jonathan J. Hunt, Arthur Guez, Saran
Tunyasuvunakool, Alistair Muldal, Th\'eophane Weber, Peter Karkus,
S\'ebastien Racani\`ere, Lars Buesing, Timothy Lillicrap, Nicolas Heess
- Abstract要約: 近年の深層強化学習(RL)では,囲碁,チェス,小技などの挑戦的なゲームを習得するアルゴリズムが開発されている。
物理的に組込みの計画問題を導入し、それらを一般公開する。
既存のRLアルゴリズムは、物理的に埋め込まれたアルゴリズムの中でも、最も単純なアルゴリズムを習得するのに苦労している。
- 参考スコア(独自算出の注目度): 26.74526714574981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in deep reinforcement learning (RL) has produced algorithms
capable of mastering challenging games such as Go, chess, or shogi. In these
works the RL agent directly observes the natural state of the game and controls
that state directly with its actions. However, when humans play such games,
they do not just reason about the moves but also interact with their physical
environment. They understand the state of the game by looking at the physical
board in front of them and modify it by manipulating pieces using touch and
fine-grained motor control. Mastering complicated physical systems with
abstract goals is a central challenge for artificial intelligence, but it
remains out of reach for existing RL algorithms. To encourage progress towards
this goal we introduce a set of physically embedded planning problems and make
them publicly available. We embed challenging symbolic tasks (Sokoban,
tic-tac-toe, and Go) in a physics engine to produce a set of tasks that require
perception, reasoning, and motor control over long time horizons. Although
existing RL algorithms can tackle the symbolic versions of these tasks, we find
that they struggle to master even the simplest of their physically embedded
counterparts. As a first step towards characterizing the space of solution to
these tasks, we introduce a strong baseline that uses a pre-trained expert game
player to provide hints in the abstract space to an RL agent's policy while
training it on the full sensorimotor control task. The resulting agent solves
many of the tasks, underlining the need for methods that bridge the gap between
abstract planning and embodied control. See illustrating video at
https://youtu.be/RwHiHlym_1k.
- Abstract(参考訳): 深層強化学習(rl)における最近の研究は、go, chess, shogiなどの挑戦的なゲームを習得できるアルゴリズムを生み出している。
これらの研究において、RLエージェントはゲームの自然な状態を直接観察し、その動作でその状態を直接制御する。
しかし、人間がそのようなゲームをするときは、動きを理由づけるだけでなく、物理的な環境と相互作用する。
彼らは、目の前の物理的なボードを見てゲームの状態を理解し、それをタッチときめ細かいモーターコントロールで操作することで修正する。
抽象的な目標を持つ複雑な物理システムをマスターすることは、人工知能にとって重要な課題だが、既存のRLアルゴリズムには及ばない。
この目標に向かって進歩を促すために、私たちは物理的に埋め込まれた計画の問題を紹介し、それらを公開します。
物理エンジンに挑戦的な象徴的タスク(sokoban、tic-tac-toe、go)を組み込んで、知覚、推論、運動制御を必要とする一連のタスクを長時間の地平線上で生成します。
既存のRLアルゴリズムはこれらのタスクのシンボリックバージョンに対処できるが、物理的に組み込まれた最も単純なタスクをマスターするのに苦労している。
これらの課題に対する解の空間を特徴付けるための第一歩として,事前学習された専門家ゲームプレイヤを用いて,RLエージェントのポリシーに抽象空間のヒントを提供しながら,完全な感覚運動制御タスクで学習する強力なベースラインを導入する。
結果として得られたエージェントは、多くのタスクを解決し、抽象的な計画と具体化された制御の間のギャップを埋めるメソッドの必要性を強調する。
動画はhttps://youtu.be/RwHiHlym_1k。
関連論文リスト
- Bridging the Sim-to-Real Gap for Athletic Loco-Manipulation [18.451995260533682]
我々は、複雑なアクチュエーター機構のためのsim-to-realギャップをブリッジするためにUnsupervised Actuator Net (UAN)を導入する。
UANは、学習した振る舞いが堅牢で、転送可能であることを保証することで、報酬のハッキングを緩和する。
これらのイノベーションによって、ロボットアスリートは、シミュレーションから現実への顕著な忠実さで持ち上げ、投げ、ドラッグすることを学びました。
論文 参考訳(メタデータ) (2025-02-15T20:18:37Z) - Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks [3.479490713357225]
我々は、何千万もの2次元物理に基づくタスクを手続き的に生成し、それらを物理制御のための一般強化学習(RL)エージェントの訓練に使用する。
Kinetixは物理ベースのRL環境のオープンエンドスペースで、ロボットの移動やグリップからビデオゲームや古典的なRL環境まで、さまざまなタスクを表現できる。
我々の訓練されたエージェントは強力な物理的推論能力を示し、目に見えない人間が設計した環境をゼロショットで解決することができる。
論文 参考訳(メタデータ) (2024-10-30T16:59:41Z) - Mastering the Game of Guandan with Deep Reinforcement Learning and
Behavior Regulating [16.718186690675164]
我々は,グアンダンのゲームをマスターするAIエージェントのためのフレームワークGuanZeroを提案する。
本論文の主な貢献は、注意深く設計されたニューラルネットワーク符号化方式によるエージェントの動作の制御である。
論文 参考訳(メタデータ) (2024-02-21T07:26:06Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - From Motor Control to Team Play in Simulated Humanoid Football [56.86144022071756]
我々は、現実的な仮想環境でサッカーをするために、物理的にシミュレートされたヒューマノイドアバターのチームを訓練する。
一連の段階において、プレイヤーはまず、現実的な人間のような動きを実行するために、完全に関節化された身体を制御することを学習する。
その後、ドリブルやシューティングといった中級のサッカーのスキルを身につける。
最後に、彼らは他の人を意識し、チームとしてプレーし、ミリ秒のタイムスケールで低レベルのモーターコントロールのギャップを埋める。
論文 参考訳(メタデータ) (2021-05-25T20:17:10Z) - How to Train Your Robot with Deep Reinforcement Learning; Lessons We've
Learned [111.06812202454364]
本稿では,ロボット深部RLのケーススタディをいくつか紹介する。
深部RLにおける一般的な課題と,それらの課題について論じる。
また、他の卓越した課題についても概説し、その多くが現実世界のロボティクスの設定に特有のものである。
論文 参考訳(メタデータ) (2021-02-04T22:09:28Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Learning to Play Table Tennis From Scratch using Muscular Robots [34.34824536814943]
この研究は、(a)人為的ロボットアームを用いた安全クリティカルな動的タスクを初めて学習し、(b)PAM駆動システムで精度の高い要求問題を学び、(c)本物のボールなしで卓球をするようにロボットを訓練する。
ビデオとデータセットは muscleTT.embodied.ml で入手できる。
論文 参考訳(メタデータ) (2020-06-10T16:43:27Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z) - Deep Adversarial Reinforcement Learning for Object Disentangling [36.66974848126079]
本稿では, 廃棄物の密接化を図り, 対人強化学習(ARL)フレームワークを提案する。
ARLフレームワークは、元のエージェントであるプロタゴニストを挑戦する状態に操るために訓練された敵を利用する。
本手法は,ロボット制御のためのエンドツーエンドシステムを用いて,難易度の高い物体分離タスクを学習することにより,シナリオの学習からテストまでを一般化できることを示す。
論文 参考訳(メタデータ) (2020-03-08T13:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。