論文の概要: Understanding Decision-Time vs. Background Planning in Model-Based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.08442v1
- Date: Thu, 16 Jun 2022 20:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:00:54.088599
- Title: Understanding Decision-Time vs. Background Planning in Model-Based
Reinforcement Learning
- Title(参考訳): モデルベース強化学習における意思決定時間と背景計画の理解
- Authors: Safa Alver, Doina Precup
- Abstract要約: 一般的な2つのアプローチは、意思決定時計画とバックグラウンド計画である。
本研究は、これらの2つの計画スタイルのうちの1つが、どの条件で、どの設定が他の方法よりも優れているかを理解することに関心がある。
全体としては、意思決定時計画は、古典的インスタンス化において、背景計画と同等に動作しないが、現代のインスタンス化では、背景計画よりも同等かそれ以上に実行可能であることを示唆している。
- 参考スコア(独自算出の注目度): 56.50123642237106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In model-based reinforcement learning, an agent can leverage a learned model
to improve its way of behaving in different ways. Two prevalent approaches are
decision-time planning and background planning. In this study, we are
interested in understanding under what conditions and in which settings one of
these two planning styles will perform better than the other in domains that
require fast responses. After viewing them through the lens of dynamic
programming, we first consider the classical instantiations of these planning
styles and provide theoretical results and hypotheses on which one will perform
better in the pure planning, planning & learning, and transfer learning
settings. We then consider the modern instantiations of these planning styles
and provide hypotheses on which one will perform better in the last two of the
considered settings. Lastly, we perform several illustrative experiments to
empirically validate both our theoretical results and hypotheses. Overall, our
findings suggest that even though decision-time planning does not perform as
well as background planning in their classical instantiations, in their modern
instantiations, it can perform on par or better than background planning in
both the planning & learning and transfer learning settings.
- Abstract(参考訳): モデルに基づく強化学習では、エージェントは学習したモデルを利用して、異なる方法で行動する方法を改善することができる。
2つの一般的なアプローチは、意思決定時計画とバックグラウンド計画である。
本研究では,これらの2つのプランニングスタイルのうちの1つが,迅速な応答を必要とするドメインにおいて,どの条件下でより優れているかを理解することに興味がある。
動的プログラミングのレンズを通してそれらを観察した後、まずこれらの計画スタイルの古典的なインスタンス化を考察し、純粋計画、計画、学習、伝達学習の設定においてより良く機能する理論的な結果と仮説を提供する。
次に、これらのプランニングスタイルの現代的なインスタンス化を検討し、考慮された最後の2つの設定で、どちらがうまく機能するかの仮説を提供する。
最後に,理論結果と仮説の両方を実証的に検証するために,いくつかの例証実験を行った。
全体としては、意思決定時計画は古典的インスタンス化において、背景計画と同等に機能しないが、現代のインスタンス化では、計画と学習の両方において、背景計画と同等以上の性能を発揮することが示唆された。
関連論文リスト
- Meta-Gradient Search Control: A Method for Improving the Efficiency of Dyna-style Planning [8.552540426753]
本稿では,Dynaスタイルのプランニング中に状態がクエリされる確率を調整可能な,オンラインのメタグラディエントアルゴリズムを提案する。
その結果,提案手法は計画プロセスの効率化を図っている。
論文 参考訳(メタデータ) (2024-06-27T22:24:46Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - Hierarchical Optimization-Derived Learning [58.69200830655009]
我々は,最適化モデル構築の本質的な動作とそれに対応する学習過程を同時に研究するために,階層型ODL(Hyerarchical ODL)という新しいフレームワークを構築した。
これは、最適化と学習という2つの結合されたODLコンポーネントに対する最初の理論的保証である。
論文 参考訳(メタデータ) (2023-02-11T03:35:13Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。