論文の概要: Value Gradients with Action Adaptive Search Trees in Continuous (PO)MDPs
- arxiv url: http://arxiv.org/abs/2503.12181v1
- Date: Sat, 15 Mar 2025 15:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.76792
- Title: Value Gradients with Action Adaptive Search Trees in Continuous (PO)MDPs
- Title(参考訳): 連続(PO)MDPにおける行動適応探索木を用いた値勾配
- Authors: Idan Lev-Yehudi, Michael Novitsky, Moran Barenboim, Ron Benchetrit, Vadim Indelman,
- Abstract要約: POMDPを連続的な状態、行動、観察空間で解決することは、現実のモビリティやロボティクスアプリケーションにおける自律的な計画の鍵となる。
我々は、兄弟のアクションブランチ間で価値情報を共有できる新しい値推定用多重重要サンプリングツリーを定式化する。
第2に,遷移確率に基づくオンラインサンプリングによる値勾配計算手法を提案する。
- 参考スコア(独自算出の注目度): 7.170248667518935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Solving Partially Observable Markov Decision Processes (POMDPs) in continuous state, action and observation spaces is key for autonomous planning in many real-world mobility and robotics applications. Current approaches are mostly sample based, and cannot hope to reach near-optimal solutions in reasonable time. We propose two complementary theoretical contributions. First, we formulate a novel Multiple Importance Sampling (MIS) tree for value estimation, that allows to share value information between sibling action branches. The novel MIS tree supports action updates during search time, such as gradient-based updates. Second, we propose a novel methodology to compute value gradients with online sampling based on transition likelihoods. It is applicable to MDPs, and we extend it to POMDPs via particle beliefs with the application of the propagated belief trick. The gradient estimator is computed in practice using the MIS tree with efficient Monte Carlo sampling. These two parts are combined into a new planning algorithm Action Gradient Monte Carlo Tree Search (AGMCTS). We demonstrate in a simulated environment its applicability, advantages over continuous online POMDP solvers that rely solely on sampling, and we discuss further implications.
- Abstract(参考訳): 連続状態、行動、観察空間における部分観測可能なマルコフ決定プロセス(POMDP)の解決は、多くの実世界の移動・ロボット工学アプリケーションにおいて自律的な計画の鍵となる。
現在のアプローチは主にサンプルベースであり、妥当な時間でほぼ最適のソリューションに到達することを望まない。
我々は2つの相補的な理論的貢献を提案する。
まず,新しいMultiple Importance Smpling (MIS) ツリーを定式化して値推定を行う。
MISツリーは、勾配ベースの更新など、検索時間中のアクション更新をサポートする。
第2に,遷移確率に基づくオンラインサンプリングによる値勾配計算手法を提案する。
本手法はMDPに適用可能であり, 粒子信念によるPMDPにも適用可能である。
勾配推定器は、効率的なモンテカルロサンプリングによるMIS木を用いて実際に計算される。
これら2つの部分は、新しい計画アルゴリズムであるAction Gradient Monte Carlo Tree Search (AGMCTS)に統合される。
シミュレーション環境では, サンプリングのみに依存したオンラインPOMDPソルバよりも, 適用性, 利点を実演し, さらなる影響について論じる。
関連論文リスト
- Partially Observable Monte-Carlo Graph Search [15.40087235187116]
大規模なPOMDPをオフラインで解くために,新しいサンプリングベースアルゴリズムである部分的に観測可能なモンテカルログラフ探索(POMCGS)を提案する。
POMCGSはこのサーチツリーをオンザフライで折り畳み、ポリシーグラフを構築することで、計算を大幅に削減することができる。
我々は,POMCGSが従来のオフラインアルゴリズムでは計算できない,最も困難なPOMDPのポリシーを生成できることを実証した。
論文 参考訳(メタデータ) (2025-07-28T16:02:36Z) - Monte Carlo Tree Diffusion for System 2 Planning [57.50512800900167]
モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。
本手法は,木構造化プロセスとしてデノナイジングを再認識し,部分的にデノナイジングした計画を反復的に評価し,刈り取り,精錬する。
論文 参考訳(メタデータ) (2025-02-11T02:51:42Z) - A View of the Certainty-Equivalence Method for PAC RL as an Application of the Trajectory Tree Method [5.238591085233903]
本稿では,CEMが実際にTTMの応用と見なされるという驚くべき発見に起因した理論的研究を提案する。
我々は,非定常MPPと定常MPPの双方に対して,CEMの試料複雑度上限を(3)改良した。
また, 有限ホライズン MDP に対する標本複雑性の低い値を示し, 非定常 MDP に対する上界の最小値最適性を確立する。
論文 参考訳(メタデータ) (2025-01-05T20:37:34Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Rollout Heuristics for Online Stochastic Contingent Planning [6.185979230964809]
部分的に観測可能なモンテカルロ計画(英語版)は、次の行動を決定するオンラインアルゴリズムである。
POMDPは、良い見積もりを計算するためのロールアウトポリシーに大きく依存している。
本稿では,PMDPを緊急計画問題としてモデル化する。
論文 参考訳(メタデータ) (2023-10-03T18:24:47Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文 参考訳(メタデータ) (2023-05-14T03:12:53Z) - Adaptive Discretization using Voronoi Trees for Continuous POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
モンテカルロ木探索と、作用空間の適応的な離散化と、楽観的な最適化を組み合わせて、高次元連続作用空間を効率的にサンプリングする。
ADVTは、最先端の手法と比較して、高次元の連続的な作用空間よりもかなり良くスケールする。
論文 参考訳(メタデータ) (2023-02-21T04:47:34Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Principal Geodesic Analysis of Merge Trees (and Persistence Diagrams) [8.430851504111585]
本稿では,共有メモリ並列性を利用した効率的な反復アルゴリズムと,適合エネルギー勾配の解析式を導入する。
我々は,2つの典型的なPCAアプリケーションを統合することで,コントリビューションの有用性を示す。
MT-PGAベースの最初の2方向を利用して2次元レイアウトを生成する次元削減フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T09:17:22Z) - Adaptive Sampling using POMDPs with Domain-Specific Considerations [9.670635276589248]
適応サンプリング問題に対するモンテカルロ木探索に基づく解法の改良について検討する。
本稿では,ロールアウトアロケーション,アクション探索アルゴリズム,計画コミットメントの改善を提案する。
一つの計画木から取られたアクションの数を増やすことにより,ロールアウト回数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-23T19:00:02Z) - Monte Carlo Information-Oriented Planning [6.0158981171030685]
rho-POMDPとして表現された情報収集問題を解決する方法について議論する。
我々はPOMCPアルゴリズムを用いてrho-POMDPのモンテカルロツリー探索を提案する。
論文 参考訳(メタデータ) (2021-03-21T09:09:27Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - A Rigorous Link Between Self-Organizing Maps and Gaussian Mixture Models [78.6363825307044]
本研究は、自己組織化マップ(SOM)とガウス混合モデル(GMM)の関係を数学的に扱うものである。
我々は,エネルギーベースSOMモデルを勾配勾配下降と解釈できることを示した。
このリンクはSOMsを生成確率モデルとして扱うことができ、SOMsを使用して外れ値を検出したりサンプリングしたりするための正式な正当性を与える。
論文 参考訳(メタデータ) (2020-09-24T14:09:04Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。