論文の概要: A Look at Value-Based Decision-Time vs. Background Planning Methods Across Different Settings
- arxiv url: http://arxiv.org/abs/2206.08442v2
- Date: Sun, 4 Aug 2024 10:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 00:54:45.397842
- Title: A Look at Value-Based Decision-Time vs. Background Planning Methods Across Different Settings
- Title(参考訳): 異なる設定における価値に基づく意思決定時間と背景計画手法の検討
- Authors: Safa Alver, Doina Precup,
- Abstract要約: 本研究では,意思決定時間と背景計画手法の値に基づくバージョンが,異なる設定で相互に比較する方法について検討する。
全体として,2つの計画手法の値ベースのバージョンは,最も単純なインスタンス化において同等に動作するが,価値ベースの意思決定時間計画手法の近代的なインスタンス化は,価値ベースの背景計画手法の近代的なインスタンス化よりも同等かそれ以上に実行可能であることが示唆された。
- 参考スコア(独自算出の注目度): 41.606112019744174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In model-based reinforcement learning (RL), an agent can leverage a learned model to improve its way of behaving in different ways. Two of the prevalent ways to do this are through decision-time and background planning methods. In this study, we are interested in understanding how the value-based versions of these two planning methods will compare against each other across different settings. Towards this goal, we first consider the simplest instantiations of value-based decision-time and background planning methods and provide theoretical results on which one will perform better in the regular RL and transfer learning settings. Then, we consider the modern instantiations of them and provide hypotheses on which one will perform better in the same settings. Finally, we perform illustrative experiments to validate these theoretical results and hypotheses. Overall, our findings suggest that even though value-based versions of the two planning methods perform on par in their simplest instantiations, the modern instantiations of value-based decision-time planning methods can perform on par or better than the modern instantiations of value-based background planning methods in both the regular RL and transfer learning settings.
- Abstract(参考訳): モデルベース強化学習(RL)では、エージェントは学習したモデルを利用して、様々な方法で行動の仕方を改善することができる。
これを行う一般的な方法の2つは、意思決定時間とバックグラウンド計画方法である。
本研究では、これらの2つの計画手法の価値に基づくバージョンが、異なる設定でどのように比較されるかを理解することに興味を持つ。
この目標に向けて、まず、価値に基づく意思決定時間および背景計画手法の最も単純なインスタンス化を検討し、通常のRLと伝達学習設定において、どの手法がより良く機能するか理論的結果を提供する。
次に,それらの近代的なインスタンス化について考察し,同じ設定でより優れた性能を示す仮説を提案する。
最後に,これらの理論的結果と仮説を検証するための実証実験を行った。
全体として,2つの計画手法の値ベースのバージョンは,最も単純なインスタンス化において同等に動作するが,価値ベースの意思決定時間計画手法の現代インスタンス化は,通常のRLと転写学習設定の両方において,価値ベースの背景計画手法の現代インスタンス化よりも同等かそれ以上に実行可能であることが示唆された。
関連論文リスト
- Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
古典的計画領域と自然言語シナリオの両方を含むベンチマークスイートを構築した。
第2に、LLM計画の強化にICL(In-context Learning)を用いることについて検討し、文脈長の増大と計画性能の向上の直接的な関係について検討する。
第3に、最適計画パスに対する微調整LDMの正の効果と、モデル駆動探索手法の導入の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - What's the Plan? Evaluating and Developing Planning-Aware Techniques for Language Models [7.216683826556268]
大きな言語モデル(LLM)は、計画機能を必要とするアプリケーションにますます使われています。
我々は,新しいハイブリッド・メソドであるSimPlanを紹介し,その性能を新たな挑戦的な設定で評価する。
論文 参考訳(メタデータ) (2024-02-18T07:42:49Z) - Deep hybrid models: infer and plan in the real world [0.0]
複雑な制御タスクに対する能動推論に基づく効果的な解を提案する。
提案したアーキテクチャは、ハイブリッド(離散的かつ連続的な)処理を利用して、自己と環境の階層的かつ動的表現を構築する。
我々は、このディープハイブリッドモデルを、移動ツールを選択した後、動く物体に到達するという、非自明なタスクで評価する。
論文 参考訳(メタデータ) (2024-02-01T15:15:25Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z) - A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文 参考訳(メタデータ) (2020-06-26T14:30:41Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z) - The Two Regimes of Deep Network Training [93.84309968956941]
本研究では,異なる学習スケジュールの効果と,それらを選択する適切な方法について検討する。
この目的のために、我々は2つの異なる段階を分離し、これを「大きな段階的体制」と「小さな段階的体制」と呼ぶ。
トレーニングアルゴリズムは学習率のスケジュールを大幅に単純化することができる。
論文 参考訳(メタデータ) (2020-02-24T17:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。