論文の概要: Continuous Control for Searching and Planning with a Learned Model
- arxiv url: http://arxiv.org/abs/2006.07430v2
- Date: Mon, 22 Jun 2020 03:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:21:46.259252
- Title: Continuous Control for Searching and Planning with a Learned Model
- Title(参考訳): 学習モデルによる探索と計画のための連続制御
- Authors: Xuxi Yang, Werner Duvaud, Peng Wei
- Abstract要約: 計画機能を備えた意思決定エージェントは、Chess、Shogi、Goといった挑戦的なドメインで大きな成功を収めています。
研究者らは環境との相互作用を通じて動的モデルを学ぶことができるMuZeroアルゴリズムを提案した。
提案アルゴリズムは,最先端のモデルフリー深部強化学習アルゴリズムであるソフトアクター・クリティック(SAC)アルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 5.196149362684628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-making agents with planning capabilities have achieved huge success
in the challenging domain like Chess, Shogi, and Go. In an effort to generalize
the planning ability to the more general tasks where the environment dynamics
are not available to the agent, researchers proposed the MuZero algorithm that
can learn the dynamical model through the interactions with the environment. In
this paper, we provide a way and the necessary theoretical results to extend
the MuZero algorithm to more generalized environments with continuous action
space. Through numerical results on two relatively low-dimensional MuJoCo
environments, we show the proposed algorithm outperforms the soft actor-critic
(SAC) algorithm, a state-of-the-art model-free deep reinforcement learning
algorithm.
- Abstract(参考訳): 計画能力を持つ意思決定エージェントは、チェス、ショギ、ゴーといった挑戦的な領域で大きな成功を収めています。
環境力学がエージェントに利用できないより一般的なタスクに計画能力を一般化するために、研究者らは環境との相互作用を通じて動的モデルを学ぶことができるMuZeroアルゴリズムを提案した。
本稿では,MuZeroアルゴリズムを連続的な動作空間を持つより一般化された環境に拡張するための方法と理論的結果を提供する。
比較的低次元の MuJoCo 環境における数値的な結果から,提案アルゴリズムは,最先端のモデルフリー深部強化学習アルゴリズムであるソフトアクタ・クリティック(SAC)アルゴリズムよりも優れていることを示す。
関連論文リスト
- Discovering General Reinforcement Learning Algorithms with Adversarial
Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。
Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。
本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-10-04T12:52:56Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - Online Submodular Coordination with Bounded Tracking Regret: Theory,
Algorithm, and Applications to Multi-Robot Coordination [15.588080817106563]
私たちは、動的で非構造的で敵対的な環境で複数のロボットが協調する未来の自律性に動機付けられています。
本稿では,前兆を知っており,時間変化の時間的変動を考慮に入れた,有界な追従後悔を伴う最初の部分モジュラコーディネートアルゴリズムを提案する。
提案アルゴリズムは,Fisherらによるセミナル逐次グリーディアルゴリズムを予測不能な環境に一般化し,準モジュラリティとアルゴリズムを利用して,最良の専門家を追跡する。
論文 参考訳(メタデータ) (2022-09-26T05:31:34Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Learning Cooperation and Online Planning Through Simulation and Graph
Convolutional Network [5.505634045241288]
マルチエージェント協調環境のためのシミュレーションベースのオンライン計画アルゴリズム「SiCLOP」を導入する。
具体的には、SiCLOPはMCTS(Monte Carlo Tree Search)を補完し、協調学習にコーディネーショングラフ(CG)とグラフニューラルネットワーク(GCN)を使用する。
また、アクション空間を効果的に刈り取ることによりスケーラビリティも向上する。
論文 参考訳(メタデータ) (2021-10-16T05:54:32Z) - Planning for Novelty: Width-Based Algorithms for Common Problems in
Control, Planning and Reinforcement Learning [6.053629733936546]
幅に基づくアルゴリズムは、状態の新規性の一般的な定義を通じて解を探索する。
これらのアルゴリズムは、古典的な計画において最先端のパフォーマンスをもたらすことが示されている。
論文 参考訳(メタデータ) (2021-06-09T07:46:19Z) - Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward
Model [24.030426634281643]
連続制御タスクでは、ガウス分布を用いた広く使われているポリシーは、環境の非効率な探索をもたらす。
本稿では,ポリシの表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズムGenerative Actor-Criticを提案する。
プッシュフォワードポリシには,マルチモーダリティなどの望ましい特徴があり,アルゴリズムの探索と性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:29:20Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。