論文の概要: Understanding Decision-Time vs. Background Planning in Model-Based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.08442v1
- Date: Thu, 16 Jun 2022 20:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:00:54.088599
- Title: Understanding Decision-Time vs. Background Planning in Model-Based
Reinforcement Learning
- Title(参考訳): モデルベース強化学習における意思決定時間と背景計画の理解
- Authors: Safa Alver, Doina Precup
- Abstract要約: 一般的な2つのアプローチは、意思決定時計画とバックグラウンド計画である。
本研究は、これらの2つの計画スタイルのうちの1つが、どの条件で、どの設定が他の方法よりも優れているかを理解することに関心がある。
全体としては、意思決定時計画は、古典的インスタンス化において、背景計画と同等に動作しないが、現代のインスタンス化では、背景計画よりも同等かそれ以上に実行可能であることを示唆している。
- 参考スコア(独自算出の注目度): 56.50123642237106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In model-based reinforcement learning, an agent can leverage a learned model
to improve its way of behaving in different ways. Two prevalent approaches are
decision-time planning and background planning. In this study, we are
interested in understanding under what conditions and in which settings one of
these two planning styles will perform better than the other in domains that
require fast responses. After viewing them through the lens of dynamic
programming, we first consider the classical instantiations of these planning
styles and provide theoretical results and hypotheses on which one will perform
better in the pure planning, planning & learning, and transfer learning
settings. We then consider the modern instantiations of these planning styles
and provide hypotheses on which one will perform better in the last two of the
considered settings. Lastly, we perform several illustrative experiments to
empirically validate both our theoretical results and hypotheses. Overall, our
findings suggest that even though decision-time planning does not perform as
well as background planning in their classical instantiations, in their modern
instantiations, it can perform on par or better than background planning in
both the planning & learning and transfer learning settings.
- Abstract(参考訳): モデルに基づく強化学習では、エージェントは学習したモデルを利用して、異なる方法で行動する方法を改善することができる。
2つの一般的なアプローチは、意思決定時計画とバックグラウンド計画である。
本研究では,これらの2つのプランニングスタイルのうちの1つが,迅速な応答を必要とするドメインにおいて,どの条件下でより優れているかを理解することに興味がある。
動的プログラミングのレンズを通してそれらを観察した後、まずこれらの計画スタイルの古典的なインスタンス化を考察し、純粋計画、計画、学習、伝達学習の設定においてより良く機能する理論的な結果と仮説を提供する。
次に、これらのプランニングスタイルの現代的なインスタンス化を検討し、考慮された最後の2つの設定で、どちらがうまく機能するかの仮説を提供する。
最後に,理論結果と仮説の両方を実証的に検証するために,いくつかの例証実験を行った。
全体としては、意思決定時計画は古典的インスタンス化において、背景計画と同等に機能しないが、現代のインスタンス化では、計画と学習の両方において、背景計画と同等以上の性能を発揮することが示唆された。
関連論文リスト
- Enhancing Long-Term Recommendation with Bi-level Learnable Large
Language Model Planning [61.71616513765243]
即時利益と長期関与の両方を考慮に入れた政策を策定するために、計画能力を推薦決定プロセスに組み込むことが不可欠である。
マクロラーニングとマイクロラーニングを階層的な機構で組み合わせたバイレベルLearningable LLM Plannerフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:49:56Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z) - Model-based Reinforcement Learning: A Survey [2.564530030795554]
マルコフ決定過程 (Markov Decision Process, MDP) の最適化として一般に形式化された逐次意思決定は、人工知能において重要な課題である。
この問題の2つの主要なアプローチは強化学習(RL)と計画である。
本稿では、モデルベース強化学習として知られる両分野の統合について調査する。
論文 参考訳(メタデータ) (2020-06-30T12:10:07Z) - A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文 参考訳(メタデータ) (2020-06-26T14:30:41Z) - Think Too Fast Nor Too Slow: The Computational Trade-off Between
Planning And Reinforcement Learning [6.26592851697969]
計画と強化学習は、シーケンシャルな意思決定に対する2つの重要なアプローチである。
計画と学習のトレードオフが重要であることを示す。
提案手法は,探索時間(長期計画)からモデルフリーなRL(計画なし)まで多岐にわたる新しい計画学習アルゴリズムのスペクトルを同定し,その中間に最適な性能を実現する。
論文 参考訳(メタデータ) (2020-05-15T08:20:08Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z) - The Two Regimes of Deep Network Training [93.84309968956941]
本研究では,異なる学習スケジュールの効果と,それらを選択する適切な方法について検討する。
この目的のために、我々は2つの異なる段階を分離し、これを「大きな段階的体制」と「小さな段階的体制」と呼ぶ。
トレーニングアルゴリズムは学習率のスケジュールを大幅に単純化することができる。
論文 参考訳(メタデータ) (2020-02-24T17:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。