論文の概要: Landmark-Assisted Monte Carlo Planning
- arxiv url: http://arxiv.org/abs/2508.11493v1
- Date: Fri, 15 Aug 2025 14:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.04245
- Title: Landmark-Assisted Monte Carlo Planning
- Title(参考訳): ランドマーク支援モンテカルロ計画
- Authors: David H. Chan, Mark Roberts, Dana S. Nau,
- Abstract要約: あるランドマークポイントと長期計画で満たさなければならない条件を定式化する。
ランドマークは、いつでもMDPを解くアルゴリズムの役に立つガイダンスを提供することができる。
結果は、ランドマークはいつでもMDPを解くアルゴリズムに有用なガイダンスを提供することができることを示唆している。
- 参考スコア(独自算出の注目度): 1.3805049652130312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Landmarks$\unicode{x2013}$conditions that must be satisfied at some point in every solution plan$\unicode{x2013}$have contributed to major advancements in classical planning, but they have seldom been used in stochastic domains. We formalize probabilistic landmarks and adapt the UCT algorithm to leverage them as subgoals to decompose MDPs; core to the adaptation is balancing between greedy landmark achievement and final goal achievement. Our results in benchmark domains show that well-chosen landmarks can significantly improve the performance of UCT in online probabilistic planning, while the best balance of greedy versus long-term goal achievement is problem-dependent. The results suggest that landmarks can provide helpful guidance for anytime algorithms solving MDPs.
- Abstract(参考訳): ランドマーク$\unicode{x2013}$条件 すべての解計画において満たされなければならない$条件$\unicode{x2013}$haveは古典的計画における大きな進歩に貢献したが、確率的領域ではほとんど使われていない。
我々は確率的ランドマークを定式化し、UDTアルゴリズムをサブゴールとして活用してMDPを分解する。
ベンチマーク領域における結果から, オンライン確率計画におけるUCTの性能は, 強欲と長期的な目標達成のバランスが問題に依存しているのに対して, 良心的ランドマークが著しく向上することが示唆された。
その結果、ランドマークはいつでもMDPを解くアルゴリズムに有用なガイダンスを提供することができることが示唆された。
関連論文リスト
- Solving Stochastic Orienteering Problems with Chance Constraints Using a GNN Powered Monte Carlo Tree Search [3.3088495893219885]
本稿では,モンテカルロ木探索法(MCTS)を提案する。
割り当てられた旅行予算を順守しながら、アルゴリズムは、旅行コストを発生させながら収集された報酬を最大化する。
トレーニングデータセットの特性を超えて、このアプローチがいかに一般化できるかを実証する。
論文 参考訳(メタデータ) (2024-09-06T23:31:01Z) - AlphaZeroES: Direct score maximization outperforms planning loss minimization [61.17702187957206]
実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。
実行時に計画するアプローチのファミリは、AlphaZeroとその変種で、Monte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを使用する。
複数の環境にまたがって、エピソードスコアを直接最大化し、計画損失を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2024-06-12T23:00:59Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Scale-Adaptive Balancing of Exploration and Exploitation in Classical Planning [1.6574413179773757]
我々は,MAB文献のより詳細な理論的理解が,既存の計画アルゴリズムの改善に役立つことを示す。
本稿では, UCB1-Normal bandit を用いた MCTS/THTS アルゴリズムである GreedyUCT-Normal を提案する。
論文 参考訳(メタデータ) (2023-05-16T22:46:37Z) - Stopping Criteria for Value Iteration on Stochastic Games with
Quantitative Objectives [0.0]
マルコフ決定過程(MDP)とゲーム(SG)の古典的解法は価値(VI)である
本稿では、SG 上での VI の停止基準を、全報酬と平均ペイオフで提供し、これらの設定で最初にアルゴリズムを出力する。
論文 参考訳(メタデータ) (2023-04-19T19:09:55Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Symmetry Breaking for k-Robust Multi-Agent Path Finding [30.645303869311366]
k-Robust Conflict-BasedSearch (k-CBS)は、最大k遅延のロバストな座標と衝突のない計画を生成するアルゴリズムです。
そこで我々は,k-robust計画に特有な様々な対称性の破れ制約を導入し,矛盾するエージェントのペアに対して,効率よく相反する最適経路を見つける。
論文 参考訳(メタデータ) (2021-02-17T11:09:33Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。