論文の概要: A Unifying Framework for Reinforcement Learning and Planning
- arxiv url: http://arxiv.org/abs/2006.15009v4
- Date: Thu, 31 Mar 2022 08:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:36:25.475112
- Title: A Unifying Framework for Reinforcement Learning and Planning
- Title(参考訳): 強化学習と計画のための統一的枠組み
- Authors: Thomas M. Moerland, Joost Broekens, Aske Plaat, Catholijn M. Jonker
- Abstract要約: 本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
- 参考スコア(独自算出の注目度): 2.564530030795554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential decision making, commonly formalized as optimization of a Markov
Decision Process, is a key challenge in artificial intelligence. Two successful
approaches to MDP optimization are reinforcement learning and planning, which
both largely have their own research communities. However, if both research
fields solve the same problem, then we might be able to disentangle the common
factors in their solution approaches. Therefore, this paper presents a unifying
algorithmic framework for reinforcement learning and planning (FRAP), which
identifies underlying dimensions on which MDP planning and learning algorithms
have to decide. At the end of the paper, we compare a variety of well-known
planning, model-free and model-based RL algorithms along these dimensions.
Altogether, the framework may help provide deeper insight in the algorithmic
design space of planning and reinforcement learning.
- Abstract(参考訳): マルコフ決定プロセスの最適化として一般に形式化された逐次意思決定は、人工知能の重要な課題である。
mdp最適化に成功している2つのアプローチは強化学習と計画であり、どちらもそれぞれ独自の研究コミュニティを持っている。
しかし、両研究分野が同じ問題を解決すれば、ソリューションアプローチの共通要因を分離することができるかもしれません。
そこで本稿では,MDP計画および学習アルゴリズムが決定すべき基礎的次元を識別する,強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後に、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
さらに、このフレームワークは、計画と強化学習のアルゴリズム設計空間に関する深い洞察を提供するのに役立つかもしれない。
関連論文リスト
- A Survey of Contextual Optimization Methods for Decision Making under
Uncertainty [47.73071218563257]
この記事では、データからポリシーを学ぶための3つの主要なフレームワークを特定し、その強みと限界について論じる。
統一的な表記と用語の下で既存のモデルとメソッドを示し、これらを3つの主要なフレームワークに従って分類する。
論文 参考訳(メタデータ) (2023-06-17T15:21:02Z) - The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Decision-Making Algorithms for Learning and Adaptation with Application
to COVID-19 Data [46.71828464689144]
本研究は適応と学習のための新しい意思決定アルゴリズムの開発に焦点を当てている。
重要な観察は、推定と決定の問題は構造的に異なるため、前者で成功したアルゴリズムは決定の問題を調整してもうまく機能しないということである。
論文 参考訳(メタデータ) (2020-12-14T18:24:45Z) - Abstract Value Iteration for Hierarchical Reinforcement Learning [23.08652058034536]
本研究では,連続状態と行動空間による制御のための階層型強化学習フレームワークを提案する。
重要な課題は、ADPがマルコフではなく、ADPで計画するための2つのアルゴリズムを提案することである。
我々の手法は、いくつかの挑戦的なベンチマークにおいて、最先端の階層的強化学習アルゴリズムより優れています。
論文 参考訳(メタデータ) (2020-10-29T14:41:42Z) - Model-based Reinforcement Learning: A Survey [2.564530030795554]
マルコフ決定過程 (Markov Decision Process, MDP) の最適化として一般に形式化された逐次意思決定は、人工知能において重要な課題である。
この問題の2つの主要なアプローチは強化学習(RL)と計画である。
本稿では、モデルベース強化学習として知られる両分野の統合について調査する。
論文 参考訳(メタデータ) (2020-06-30T12:10:07Z) - Towards Minimax Optimal Reinforcement Learning in Factored Markov
Decision Processes [53.72166325215299]
エピソード因子化マルコフ決定過程(FMDP)における最小強化学習について検討する。
第一に、分解された構造のリッチなクラスに対する最小限の後悔の保証を達成する。
2つ目は、少し悪い後悔をしながら、より良い計算複雑性を楽しみます。
論文 参考訳(メタデータ) (2020-06-24T00:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。