論文の概要: Action-Gradient Monte Carlo Tree Search for Non-Parametric Continuous (PO)MDPs
- arxiv url: http://arxiv.org/abs/2503.12181v3
- Date: Sat, 31 May 2025 11:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.202477
- Title: Action-Gradient Monte Carlo Tree Search for Non-Parametric Continuous (PO)MDPs
- Title(参考訳): 非パラメトリック連続(PO)MDPに対する行動勾配モンテカルロ木探索
- Authors: Idan Lev-Yehudi, Michael Novitsky, Moran Barenboim, Ron Benchetrit, Vadim Indelman,
- Abstract要約: Action-Gradient Monte Carlo Tree Search (AGMCTS)は、非パラメトリック粒子探索とPOMDPのオンライン勾配改善をブレンドする最初のプランナーである。
AGMCTSは、広く使われているサンプルのみの解法よりも、ソリューションの品質が優れている。
- 参考スコア(独自算出の注目度): 7.170248667518935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous systems that operate in continuous state, action, and observation spaces require planning and reasoning under uncertainty. Existing online planning methods for such POMDPs are almost exclusively sample-based, yet they forego the power of high-dimensional gradient optimization as combining it into Monte Carlo Tree Search (MCTS) has proved difficult, especially in non-parametric settings. We close this gap with three contributions. First, we derive a novel action-gradient theorem for both MDPs and POMDPs in terms of transition likelihoods, making gradient information accessible during tree search. Second, we introduce the Multiple Importance Sampling (MIS) tree, that re-uses samples for changing action branches, yielding consistent value estimates that enable in-search gradient steps. Third, we derive exact transition probability computation via the area formula for smooth generative models common in physical domains, a result of independent interest. These elements combine into Action-Gradient Monte Carlo Tree Search (AGMCTS), the first planner to blend non-parametric particle search with online gradient refinement in POMDPs. Across several challenging continuous MDP and POMDP benchmarks, AGMCTS outperforms widely-used sample-only solvers in solution quality.
- Abstract(参考訳): 連続状態、行動、観測空間で動作する自律システムは、不確実性の下で計画と推論を必要とする。
既存のPMDPのオンラインプランニング手法はほとんどサンプルベースであるが,モンテカルロ木探索(MCTS)と組み合わせた高次元勾配最適化のパワーは,特に非パラメトリック環境では困難であることが証明されている。
このギャップを3つのコントリビューションで埋めます。
まず、遷移確率の観点から、MDPとPMDPの双方に対して新しい行動勾配定理を導出し、木探索時に勾配情報にアクセスできるようにする。
第二に、Multiple Importance Smpling (MIS) ツリーを導入し、アクションブランチの変更のためにサンプルを再使用し、調査中の勾配ステップを可能にする一貫した値推定値を生成する。
第三に、独立利害関係の結果として、物理領域に共通する滑らかな生成モデルに対する領域式による正確な遷移確率計算を導出する。
これらの要素はAction-Gradient Monte Carlo Tree Search (AGMCTS)と組み合わされ、非パラメトリック粒子探索とPOMDPのオンライン勾配改善をブレンドした最初のプランナーとなった。
いくつかの挑戦的な連続MDPとPOMDPベンチマークの中で、AGMCTSは、広く使われているサンプルのみの解法よりも、ソリューションの品質が優れている。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Rollout Heuristics for Online Stochastic Contingent Planning [6.185979230964809]
部分的に観測可能なモンテカルロ計画(英語版)は、次の行動を決定するオンラインアルゴリズムである。
POMDPは、良い見積もりを計算するためのロールアウトポリシーに大きく依存している。
本稿では,PMDPを緊急計画問題としてモデル化する。
論文 参考訳(メタデータ) (2023-10-03T18:24:47Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文 参考訳(メタデータ) (2023-05-14T03:12:53Z) - Adaptive Sampling using POMDPs with Domain-Specific Considerations [9.670635276589248]
適応サンプリング問題に対するモンテカルロ木探索に基づく解法の改良について検討する。
本稿では,ロールアウトアロケーション,アクション探索アルゴリズム,計画コミットメントの改善を提案する。
一つの計画木から取られたアクションの数を増やすことにより,ロールアウト回数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-23T19:00:02Z) - Monte Carlo Information-Oriented Planning [6.0158981171030685]
rho-POMDPとして表現された情報収集問題を解決する方法について議論する。
我々はPOMCPアルゴリズムを用いてrho-POMDPのモンテカルロツリー探索を提案する。
論文 参考訳(メタデータ) (2021-03-21T09:09:27Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。