論文の概要: Policy Gradient with Tree Search: Avoiding Local Optimas through Lookahead
- arxiv url: http://arxiv.org/abs/2506.07054v1
- Date: Sun, 08 Jun 2025 09:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.07593
- Title: Policy Gradient with Tree Search: Avoiding Local Optimas through Lookahead
- Title(参考訳): ツリー検索によるポリシーのグラディエント - Lookaheadによるローカルオプティマスの回避
- Authors: Uri Koren, Navdeep Kumar, Uri Gadot, Giorgia Ramponi, Kfir Yehuda Levy, Shie Mannor,
- Abstract要約: Policy Gradient with Tree Search (PGTS)は、ポリシー最適化を強化するために$m$-step lookaheadメカニズムを統合するアプローチである。
木探索深度を$m$-単調に増加させると、望ましくない静止点の集合が減少することを示す理論的解析を行う。
Ladder、Tightrope、Gridworldといった多様なMDP構造に関する実証的な評価は、PGTSが「遠視性」を示す能力を示している。
- 参考スコア(独自算出の注目度): 45.63877278757336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical policy gradient (PG) methods in reinforcement learning frequently converge to suboptimal local optima, a challenge exacerbated in large or complex environments. This work investigates Policy Gradient with Tree Search (PGTS), an approach that integrates an $m$-step lookahead mechanism to enhance policy optimization. We provide theoretical analysis demonstrating that increasing the tree search depth $m$-monotonically reduces the set of undesirable stationary points and, consequently, improves the worst-case performance of any resulting stationary policy. Critically, our analysis accommodates practical scenarios where policy updates are restricted to states visited by the current policy, rather than requiring updates across the entire state space. Empirical evaluations on diverse MDP structures, including Ladder, Tightrope, and Gridworld environments, illustrate PGTS's ability to exhibit "farsightedness," navigate challenging reward landscapes, escape local traps where standard PG fails, and achieve superior solutions.
- Abstract(参考訳): 強化学習における古典的政策勾配法(PG法)は、大規模または複雑な環境において悪化する課題である最適下限の局所最適度によく収束する。
本研究は、ポリシー最適化を強化するために、$m$-step lookaheadメカニズムを統合するアプローチであるPGTS(Policy Gradient with Tree Search)について検討する。
本研究では,木探索深度を$m$-単調に増加させることで,望ましくない定常点の集合を減少させ,その結果の定常ポリシーの最悪の性能を向上させることを理論的に示す。
批判的に、我々の分析は、政策更新が州全体の更新を必要とせず、現在の政策によって訪問される州に制限される実践的なシナリオに対応している。
Ladder、Tightrope、Gridworldといった様々なMDP構造に関する実証的な評価は、PGTSが「監視」を示し、挑戦的な報酬の風景をナビゲートし、標準PGが失敗するローカルトラップを回避し、優れたソリューションを実現する能力を示している。
関連論文リスト
- Provable Zero-Shot Generalization in Offline Reinforcement Learning [55.169228792596805]
ゼロショット一般化特性(ZSG)を用いたオフライン強化学習について検討する。
既存の研究によると、古典的なオフラインRLは新しい、目に見えない環境に一般化できなかった。
PERM と PPPO はともに,ZSG による準最適政策を見出すことができることを示す。
論文 参考訳(メタデータ) (2025-03-11T02:44:32Z) - Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Policy Optimization in a Noisy Neighborhood: On Return Landscapes in Continuous Control [24.470904615201736]
我々は、リターンランドスケープ、すなわち、ポリシーとリターンのマッピングについて研究する。
一般的なアルゴリズムは、この風景のノイズの多い地区を横切り、ポリシーパラメータを1回更新するだけで、幅広いリターンが得られます。
本研究では,政策の安定性を向上するパラメータ空間の単純な経路を見出すことにより,ランドスケープが驚くべき構造を示すことを示す。
論文 参考訳(メタデータ) (2023-09-26T01:03:54Z) - Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation
for Reinforcement Learning [43.61029925616256]
強化学習(RL)におけるオフラインポリシー評価は、実生活アプリケーションにRLを適用するための重要なステップである。
ポリシクラス$Pi$ -- OPEの統一収束を同時に評価することで、この問題に対処する。
以上の結果から,モデルベースプランニングにより,$widetildeO(H3/d_mepsilon2)$の最適なエピソード複雑性を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-07-07T19:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。