論文の概要: Critic PI2: Master Continuous Planning via Policy Improvement with Path
Integrals and Deep Actor-Critic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.06752v1
- Date: Fri, 13 Nov 2020 04:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 23:27:32.691593
- Title: Critic PI2: Master Continuous Planning via Policy Improvement with Path
Integrals and Deep Actor-Critic Reinforcement Learning
- Title(参考訳): 批判的PI2:パス積分とディープアクター・クリティカル強化学習による政策改善によるマスター継続的計画
- Authors: Jiajun Fan, He Ba, Xian Guo, Jianye Hao
- Abstract要約: 木に基づく計画手法はチェスや囲碁といった個別の領域で大きな成功を収めている。
本稿では,トラジェクティブ最適化,深いアクター・アクター学習,モデルに基づく強化学習の利点を組み合わせた批判型PI2を提案する。
当社の作業は、モデルベースの計画システムのコンポーネントとその利用方法を学ぶための、新たな方向性を開くものです。
- 参考スコア(独自算出の注目度): 23.25444331531546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing agents with planning capabilities has long been one of the main
challenges in the pursuit of artificial intelligence. Tree-based planning
methods from AlphaGo to Muzero have enjoyed huge success in discrete domains,
such as chess and Go. Unfortunately, in real-world applications like robot
control and inverted pendulum, whose action space is normally continuous, those
tree-based planning techniques will be struggling. To address those
limitations, in this paper, we present a novel model-based reinforcement
learning frameworks called Critic PI2, which combines the benefits from
trajectory optimization, deep actor-critic learning, and model-based
reinforcement learning. Our method is evaluated for inverted pendulum models
with applicability to many continuous control systems. Extensive experiments
demonstrate that Critic PI2 achieved a new state of the art in a range of
challenging continuous domains. Furthermore, we show that planning with a
critic significantly increases the sample efficiency and real-time performance.
Our work opens a new direction toward learning the components of a model-based
planning system and how to use them.
- Abstract(参考訳): 計画能力を持つエージェントの構築は、人工知能の追求における主要な課題の1つだ。
alphago から muzero までのツリーベースの計画手法は、チェスや go といった離散ドメインで大きな成功を収めている。
残念ながら、ロボット制御や逆振り子のような現実世界のアプリケーションでは、アクションスペースは通常連続しているため、これらのツリーベースの計画手法は苦労している。
そこで本稿では,これらの制約に対処するために,軌道最適化,深層アクタ批判学習,モデルベース強化学習の利点を組み合わせた,新しいモデルベース強化学習フレームワークであるcritter pi2を提案する。
本手法は,多くの連続制御系に適用可能な逆振り子モデルに対して評価する。
広範囲にわたる実験により、Critic PI2は一連の挑戦的な連続ドメインにおいて、新しい最先端技術を達成した。
さらに,評論家による計画がサンプル効率とリアルタイム性能を著しく向上させることを示す。
私たちの研究は、モデルベースの計画システムのコンポーネントとそれらの使い方を学ぶための新しい方向を開きます。
関連論文リスト
- PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Reward Learning using Structural Motifs in Inverse Reinforcement
Learning [3.04585143845864]
逆強化学習(textitIRL)の問題は、ロボティクス、認知、健康といった分野において、ここ数年で急速に進化してきた。
エージェントの報酬関数の学習における現在のIRL手法の非効率性について検討する。
本稿では、まずタスクの(近似的な)構造を有限状態オートマトン(FSA)として学習し、その構造モチーフを用いてIRL問題を解決する新しいIRL法SMIRLを提案する。
論文 参考訳(メタデータ) (2022-09-25T18:34:59Z) - Learning Temporally Extended Skills in Continuous Domains as Symbolic
Actions for Planning [2.642698101441705]
長期計画と継続的な制御能力の両方を必要とする問題は、既存の強化学習エージェントに重大な課題をもたらす。
本稿では,環境の計画状態の象徴的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2022-07-11T17:13:10Z) - Creativity of AI: Hierarchical Planning Model Learning for Facilitating
Deep Reinforcement Learning [19.470693909025798]
シンボリックオプションを備えた新しい深層強化学習フレームワークを導入する。
当社のフレームワークは,政策改善の指針となるループトレーニングを特徴としている。
我々はモンテズマのRevengeとOffice Worldの2つの領域でそれぞれ実験を行っている。
論文 参考訳(メタデータ) (2021-12-18T03:45:28Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。