論文の概要: Computational Benefits of Intermediate Rewards for Hierarchical Planning
- arxiv url: http://arxiv.org/abs/2107.03961v1
- Date: Thu, 8 Jul 2021 16:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 14:57:32.765641
- Title: Computational Benefits of Intermediate Rewards for Hierarchical Planning
- Title(参考訳): 階層計画における中間報酬の計算効果
- Authors: Yuexiang Zhai, Christina Baek, Zhengyuan Zhou, Jiantao Jiao, Yi Ma
- Abstract要約: 中間報酬を用いると、成功政策を見つける際の計算の複雑さが減少するが、最短経路を見つけることは保証されない。
また、Q-learningや他の人気のある深層RLアルゴリズムを用いて、MiniGrid環境に関する広範な実験を行い、理論結果を裏付ける。
- 参考スコア(独自算出の注目度): 42.579256546135866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many hierarchical reinforcement learning (RL) applications have empirically
verified that incorporating prior knowledge in reward design improves
convergence speed and practical performance. We attempt to quantify the
computational benefits of hierarchical RL from a planning perspective under
assumptions about the intermediate state and intermediate rewards frequently
(but often implicitly) adopted in practice. Our approach reveals a trade-off
between computational complexity and the pursuit of the shortest path in
hierarchical planning: using intermediate rewards significantly reduces the
computational complexity in finding a successful policy but does not guarantee
to find the shortest path, whereas using sparse terminal rewards finds the
shortest path at a significantly higher computational cost. We also corroborate
our theoretical results with extensive experiments on the MiniGrid environments
using Q-learning and other popular deep RL algorithms.
- Abstract(参考訳): 多くの階層型強化学習(RL)アプリケーションは、報酬設計に事前知識を取り入れることで収束速度と実用性能が向上することが実証されている。
我々は、中間状態と中間報酬に関する仮定の下で計画的な視点から階層的RLの計算上の利点を定量化しようと試み、実際は頻繁に(しかし、しばしば暗黙的に)採用される。
提案手法は,計算複雑性と階層的計画における最短経路の追求のトレードオフを明らかにする。中間報酬を用いると,計算複雑性が著しく減少するが,最短経路を見つけることは保証されない。
また、Q-learningや他の人気のある深層RLアルゴリズムを用いて、MiniGrid環境に関する広範な実験を行い、理論結果を裏付ける。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習は、時間的抽象と探索の増大を利用して複雑な長い水平方向のタスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Reinforcement Learning for Classical Planning: Viewing Heuristics as
Dense Reward Generators [54.6441336539206]
本稿では,RLのサンプル効率を向上させるために,古典的計画文献でよく用いられるドメイン非依存関数を活用することを提案する。
これらの古典は、スパース・リワード問題を緩和し、RLエージェントが残余としてドメイン固有の値関数を学習できるようにするために、密度の高い報酬生成器として機能する。
いくつかの古典的計画領域において、古典論理を RL に用いた場合、スパース逆 RL と比較してサンプル効率が良いことを実証する。
論文 参考訳(メタデータ) (2021-09-30T03:36:01Z) - Off-Policy Reinforcement Learning with Delayed Rewards [16.914712720033524]
多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。
本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。
理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-22T15:19:48Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。