Fugu-MT 論文翻訳(概要): Think Fast and Far: Long-Horizon Online POMDP Planning via Rapid State Sampling

論文の概要: Think Fast and Far: Long-Horizon Online POMDP Planning via Rapid State Sampling

arxiv url: http://arxiv.org/abs/2606.04355v1
Date: Wed, 03 Jun 2026 02:14:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.475607
Title: Think Fast and Far: Long-Horizon Online POMDP Planning via Rapid State Sampling
Title（参考訳）: 高速で遠方へ:ラピッドステートサンプリングによる長距離オンラインPOMDP計画
Authors: Yuanchu Liang, Edward Kim, J. Arden Knoll, Wil Thomason, Zachary Kingston, Lydia E. Kavraki, Hanna Kurniawati,
Abstract要約: 本稿では,高速状態空間サンプリング(ROP-RAS3)による参照型オンラインPOMDP計画法を提案する。 ROP-RAS3は、非常に高速なサンプリングベースのモーションプランニング技術を使用して、状態空間をサンプリングし、オンラインで様々なマクロアクションを生成する。
参考スコア（独自算出の注目度）: 18.052639906647503
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Partially Observable Markov Decision Processes (POMDPs) are a general and principled framework for motion planning under uncertainty. Despite tremendous improvement in the scalability of POMDP solvers, long-horizon POMDPs remain difficult to solve. To alleviate the difficulty, this paper proposes a new approximate online POMDP solver, called Reference-Based Online POMDP Planning via Rapid State Space Sampling (ROP-RAS3). ROP-RAS3 uses novel extremely fast sampling-based motion planning techniques to sample the state space and generate a diverse set of macro actions online, which are then used to bias belief-space sampling and infer high-quality policies without requiring exhaustive enumeration of the action space -- a fundamental constraint for modern online POMDP solvers. ROP-RAS3 converges to a near-optimal reference-based solution at a rate that depends on the number of sampled actions, rather than the size of the action space. ROP-RAS3 is evaluated on various long-horizon POMDPs with up to 3000 lookahead steps and 35-dimensional state spaces, where the state, action and observation spaces can be continuous, discrete, or a hybrid of discrete and continuous. Although the reference-based optimal solution may not be the same as the optimal POMDP solution, empirical results indicate that in all of these problems, in terms of success rate, ROP-RAS3 outperforms other state-of-the-art methods by up to multiple folds. We also demonstrate the capability of our approach on a physical robot demonstration. This work extends the theory and empirical results of our ISRR24 paper. Code can be found at \texttt{https://github.com/RDLLab/ROPRAS3}.
Abstract（参考訳）: 部分的に観測可能なマルコフ決定過程(POMDP)は、不確実性の下での運動計画のための一般的かつ原則化された枠組みである。 POMDPソルバのスケーラビリティが大幅に向上したにもかかわらず、長い水平POMDPは解決が難しいままである。そこで本研究では,高速な状態空間サンプリング(ROP-RAS3)による参照型オンラインPOMDP計画法(Reference-Based Online POMDP Planning)を提案する。 ROP-RAS3は、非常に高速なサンプリングベースのモーションプランニング技術を使用して、状態空間をサンプリングし、さまざまなマクロアクションをオンラインで生成する。 ROP-RAS3は、アクション空間のサイズではなく、サンプリングされたアクションの数に依存する速度で、ほぼ最適の参照ベースの解に収束する。 ROP-RAS3は、最大3000個のルックアヘッドステップと35次元状態空間を持つ様々な長方形PMDPで評価され、状態、行動、観測空間は連続的、離散的、あるいは離散的、連続的なハイブリッドである。基準ベース最適解は最適POMDP解と同じではないかもしれないが、実験結果から、これらのすべての問題において、成功率の観点からは、ROP-RAS3は他の最先端の手法を最大で複数の折り畳みで上回っていることが示されている。また,ロボットによる実演におけるアプローチの有効性を実証する。本研究はISRR24論文の理論と実証結果を拡張したものである。コードは \texttt{https://github.com/RDLLab/ROPRAS3} で参照できる。

関連論文リスト

Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文参考訳（メタデータ） (2025-08-27T17:59:36Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
POMDP inference and robust solution via deep reinforcement learning: An application to railway optimal maintenance [0.7046417074932257]
深部RLを用いたPMDPの推論とロバストな解法の組み合わせを提案する。まず、すべての遷移モデルと観測モデルパラメータは、隠れマルコフモデルのマルコフ・チェイン・モンテ・カルロサンプリングによって共同で推論される。パラメータが不確実なPOMDPは、パラメータ分布を領域ランダム化によって解に組み込んだ深部RL手法によって解決される。
論文参考訳（メタデータ） (2023-07-16T15:44:58Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Experimental Study on The Effect of Multi-step Deep Reinforcement Learning in POMDPs [3.7186122930334724]
本稿では, PPO, Twin Delayed Deep Deterministic Policy Gradient (TD3) と Soft Actor-Critic (SAC) の3つのDRLアルゴリズムについて考察する。 SACとTD3は一般的に、MPPとして表現できる幅広いタスクでPPOを上回っている。我々は、TD3とSACに複数ステップのブートストラップを組み込むことで、POMDP設定におけるロバスト性が向上することを示した。
論文参考訳（メタデータ） (2022-09-12T03:12:04Z)
Dynamic Regret of Online Markov Decision Processes [84.20723936192945]
オンラインマルコフ決定過程 (MDP) について, 損失関数や既知の遷移を逆向きに変化させることで検討する。我々は,学習者と実行可能な変更ポリシーのシーケンス間のパフォーマンス差として定義されるパフォーマンス指標として,動的後悔を選択する。オンラインMDPの基本モデルとして, エピソードループフリーショート・パス(SSP), エピソードSSP, 無限水平MPPの3つを考察する。
論文参考訳（メタデータ） (2022-08-26T07:42:53Z)
STRIDE along Spectrahedral Vertices for Solving Large-Scale Rank-One Semidefinite Relaxations [27.353023427198806]
我々は、制約のない最適化問題(POP)の高次半定値プログラミング緩和を考察する。 POPから独立してSDPを解く既存のアプローチは、そのようなSDPの典型的な非エネルギー性のため、大きな問題にスケールできないか、あるいは緩やかな収束に苦しむことができない。我々は SpecTrahedral vErtices (STRIDE) と呼ばれる新しいアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-28T18:07:16Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)
An On-Line POMDP Solver for Continuous Observation Spaces [5.482532589225552]
LABECOP(Lazy Belief extract for Continuous POMDPs)と呼ばれる新しいオンラインPOMDPソルバを提案する。モンテカルロ・トレー・サーチの手法と粒子フィルタリングを組み合わせることで、離散化された観測空間を必要としない政策緩和を構築する。連続観測空間を含む3つの異なる問題に対する実験により、LABECOP は最先端の POMDP 解法と類似または類似していることが示された。
論文参考訳（メタデータ） (2020-11-04T00:16:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。