論文の概要: Online Robust Planning under Model Uncertainty: A Sample-Based Approach
- arxiv url: http://arxiv.org/abs/2509.10162v1
- Date: Fri, 12 Sep 2025 11:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.067462
- Title: Online Robust Planning under Model Uncertainty: A Sample-Based Approach
- Title(参考訳): モデル不確実性を考慮したオンラインロバスト計画:サンプルベースアプローチ
- Authors: Tamir Shazman, Idan Lev-Yehudi, Ron Benchetit, Vadim Indelman,
- Abstract要約: 本稿では,Markov Decision Processs (MDP) のためのオンライン計画アルゴリズムであるRobust Sparse Sampling (RSS)を紹介した。
RSSはサンプル平均近似(SAA)の効率性と理論的特性を活用することでロバストな値関数を計算する
RSSは無限の状態空間や連続状態空間に適用でき、そのサンプルと計算の複雑さは状態空間のサイズとは独立である。
- 参考スコア(独自算出の注目度): 8.599681538174888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online planning in Markov Decision Processes (MDPs) enables agents to make sequential decisions by simulating future trajectories from the current state, making it well-suited for large-scale or dynamic environments. Sample-based methods such as Sparse Sampling and Monte Carlo Tree Search (MCTS) are widely adopted for their ability to approximate optimal actions using a generative model. However, in practical settings, the generative model is often learned from limited data, introducing approximation errors that can degrade performance or lead to unsafe behaviors. To address these challenges, Robust MDPs (RMDPs) offer a principled framework for planning under model uncertainty, yet existing approaches are typically computationally intensive and not suited for real-time use. In this work, we introduce Robust Sparse Sampling (RSS), the first online planning algorithm for RMDPs with finite-sample theoretical performance guarantees. Unlike Sparse Sampling, which estimates the nominal value function, RSS computes a robust value function by leveraging the efficiency and theoretical properties of Sample Average Approximation (SAA), enabling tractable robust policy computation in online settings. RSS is applicable to infinite or continuous state spaces, and its sample and computational complexities are independent of the state space size. We provide theoretical performance guarantees and empirically show that RSS outperforms standard Sparse Sampling in environments with uncertain dynamics.
- Abstract(参考訳): Markov Decision Processs (MDP) のオンラインプランニングでは、エージェントが現在の状態から将来の軌跡をシミュレートすることで、シーケンシャルな決定が可能になる。
Sparse Smpling や Monte Carlo Tree Search (MCTS) のようなサンプルベースの手法は、生成モデルを用いて最適な動作を近似する能力に広く採用されている。
しかし、実際的な設定では、生成モデルは限られたデータからしばしば学習され、性能を低下させたり、安全でない振る舞いにつながる近似誤差を導入する。
これらの課題に対処するために、Robust MDP (RMDP) はモデル不確実性の下で計画するための原則化されたフレームワークを提供するが、既存のアプローチは一般に計算集約であり、リアルタイムの使用には適していない。
本稿では,有限サンプル理論性能保証付きRMDPのオンライン計画アルゴリズムであるRobust Sparse Smpling(RSS)を紹介する。
名目値関数を推定するスパースサンプリングとは異なり、RSSはサンプル平均近似(SAA)の効率性と理論的特性を活用してロバストな値関数を計算し、オンライン設定における堅牢なポリシー計算を可能にする。
RSSは無限の状態空間や連続状態空間に適用でき、そのサンプルと計算の複雑さは状態空間のサイズとは独立である。
理論的性能保証を行い、不確実な動的環境下でRSSが標準スパースサンプリングより優れていることを示す。
関連論文リスト
- Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction [7.918703013303246]
我々は,高次元連続行動空間における決定を学習する上での課題に対処する潜在マクロ行動プランナー(L-MAP)を提案する。
L-MAPは状態条件ベクトル量子変分オートエンコーダ(VQ-VAE)を通して時間的に拡張されたマクロアクションの集合を学習する
連続制御タスクを含むオフラインRL設定では、L-MAPは離散潜在アクションを効率よく探索し、高い期待値が得られる。
論文 参考訳(メタデータ) (2025-02-28T16:02:23Z) - Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。