論文の概要: A Look at Value-Based Decision-Time vs. Background Planning Methods Across Different Settings
- arxiv url: http://arxiv.org/abs/2206.08442v2
- Date: Sun, 4 Aug 2024 10:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 00:54:45.397842
- Title: A Look at Value-Based Decision-Time vs. Background Planning Methods Across Different Settings
- Title(参考訳): 異なる設定における価値に基づく意思決定時間と背景計画手法の検討
- Authors: Safa Alver, Doina Precup,
- Abstract要約: 本研究では,意思決定時間と背景計画手法の値に基づくバージョンが,異なる設定で相互に比較する方法について検討する。
全体として,2つの計画手法の値ベースのバージョンは,最も単純なインスタンス化において同等に動作するが,価値ベースの意思決定時間計画手法の近代的なインスタンス化は,価値ベースの背景計画手法の近代的なインスタンス化よりも同等かそれ以上に実行可能であることが示唆された。
- 参考スコア(独自算出の注目度): 41.606112019744174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In model-based reinforcement learning (RL), an agent can leverage a learned model to improve its way of behaving in different ways. Two of the prevalent ways to do this are through decision-time and background planning methods. In this study, we are interested in understanding how the value-based versions of these two planning methods will compare against each other across different settings. Towards this goal, we first consider the simplest instantiations of value-based decision-time and background planning methods and provide theoretical results on which one will perform better in the regular RL and transfer learning settings. Then, we consider the modern instantiations of them and provide hypotheses on which one will perform better in the same settings. Finally, we perform illustrative experiments to validate these theoretical results and hypotheses. Overall, our findings suggest that even though value-based versions of the two planning methods perform on par in their simplest instantiations, the modern instantiations of value-based decision-time planning methods can perform on par or better than the modern instantiations of value-based background planning methods in both the regular RL and transfer learning settings.
- Abstract(参考訳): モデルベース強化学習(RL)では、エージェントは学習したモデルを利用して、様々な方法で行動の仕方を改善することができる。
これを行う一般的な方法の2つは、意思決定時間とバックグラウンド計画方法である。
本研究では、これらの2つの計画手法の価値に基づくバージョンが、異なる設定でどのように比較されるかを理解することに興味を持つ。
この目標に向けて、まず、価値に基づく意思決定時間および背景計画手法の最も単純なインスタンス化を検討し、通常のRLと伝達学習設定において、どの手法がより良く機能するか理論的結果を提供する。
次に,それらの近代的なインスタンス化について考察し,同じ設定でより優れた性能を示す仮説を提案する。
最後に,これらの理論的結果と仮説を検証するための実証実験を行った。
全体として,2つの計画手法の値ベースのバージョンは,最も単純なインスタンス化において同等に動作するが,価値ベースの意思決定時間計画手法の現代インスタンス化は,通常のRLと転写学習設定の両方において,価値ベースの背景計画手法の現代インスタンス化よりも同等かそれ以上に実行可能であることが示唆された。
関連論文リスト
- Meta-Gradient Search Control: A Method for Improving the Efficiency of Dyna-style Planning [8.552540426753]
本稿では,Dynaスタイルのプランニング中に状態がクエリされる確率を調整可能な,オンラインのメタグラディエントアルゴリズムを提案する。
その結果,提案手法は計画プロセスの効率化を図っている。
論文 参考訳(メタデータ) (2024-06-27T22:24:46Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - Hierarchical Optimization-Derived Learning [58.69200830655009]
我々は,最適化モデル構築の本質的な動作とそれに対応する学習過程を同時に研究するために,階層型ODL(Hyerarchical ODL)という新しいフレームワークを構築した。
これは、最適化と学習という2つの結合されたODLコンポーネントに対する最初の理論的保証である。
論文 参考訳(メタデータ) (2023-02-11T03:35:13Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。