論文の概要: Voronoi Progressive Widening: Efficient Online Solvers for Continuous
State, Action, and Observation POMDPs
- arxiv url: http://arxiv.org/abs/2012.10140v3
- Date: Thu, 1 Apr 2021 09:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 01:08:01.560666
- Title: Voronoi Progressive Widening: Efficient Online Solvers for Continuous
State, Action, and Observation POMDPs
- Title(参考訳): voronoi progressive widening: 連続状態、動作、観察のための効率的なオンラインソルバ
- Authors: Michael H. Lim, Claire J. Tomlin, Zachary N. Sunberg
- Abstract要約: Voronoi Progressive Widening(VPW)は、Voronoi Optimization(VOO)の一般化と、部分的に観測可能なマルコフ決定プロセス(POMDP)へのアクションプログレッシブワイディングである。
本稿では,2つのvpwアルゴリズムを提案し,理論およびシミュレーションの観点から解析する。
- 参考スコア(独自算出の注目度): 29.84376559806967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Voronoi Progressive Widening (VPW), a generalization of
Voronoi optimistic optimization (VOO) and action progressive widening to
partially observable Markov decision processes (POMDPs). Tree search algorithms
can use VPW to effectively handle continuous or hybrid action spaces by
efficiently balancing local and global action searching. This paper proposes
two VPW-based algorithms and analyzes them from theoretical and simulation
perspectives. Voronoi Optimistic Weighted Sparse Sampling (VOWSS) is a
theoretical tool that justifies VPW-based online solvers, and it is the first
algorithm with global convergence guarantees for continuous state, action, and
observation POMDPs. Voronoi Optimistic Monte Carlo Planning with Observation
Weighting (VOMCPOW) is a versatile and efficient algorithm that consistently
outperforms state-of-the-art POMDP algorithms in several simulation
experiments.
- Abstract(参考訳): 本稿では,voronoi progressive widening (vpw) とvoronoi progressive optimization (voo) の一般化と,部分可観測マルコフ決定プロセス (pomdps) へのアクションプログレッシブ拡張を提案する。
ツリー探索アルゴリズムは、局所的および大域的アクション探索を効率的にバランスさせることで、連続的またはハイブリッドなアクション空間を効果的に扱うためにvpwを利用することができる。
本稿では,2つのvpwアルゴリズムを提案し,理論およびシミュレーションの観点から解析する。
Voronoi Optimistic Weighted Sparse Smpling (VOWSS)はVPWベースのオンラインソルバを正当化する理論ツールであり、連続状態、動作、観察POMDPのグローバル収束を保証する最初のアルゴリズムである。
Voronoi Optimistic Monte Carlo Planning with Observation Weighting (VOMCPOW) は、様々なシミュレーション実験において、最先端のPOMDPアルゴリズムを一貫して上回る、汎用的で効率的なアルゴリズムである。
関連論文リスト
- An accelerate Prediction Strategy for Dynamic Multi-Objective Optimization [7.272641346606365]
本稿では,進化的アルゴリズムフレームワークにおける予測戦略の高速化のための新しいアプローチを提案する。
本稿では,アルゴリズムの探索動作を予測・調整するために,二階微分を組み込んだ適応予測戦略を提案する。
標準DMOPのベンチマーク問題を用いて,提案手法の性能を4つの最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2024-10-08T08:13:49Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - PAO: A general particle swarm algorithm with exact dynamics and
closed-form transition densities [0.0]
粒子群最適化(PSO)アプローチは多くの応用分野において非常に効果的であることが証明されている。
本研究では, PSOアルゴリズムの高一般性, 解釈可能な変種であるパーティクル・アトラクター・アルゴリズム (PAO) を提案する。
論文 参考訳(メタデータ) (2023-04-28T16:19:27Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - Generalized Self-Adapting Particle Swarm Optimization algorithm with
archive of samples [0.0]
本稿では,M-GAPSOと呼ばれるアルゴリズムの新バージョンを紹介する。
GAPSOの当初の定式化と比較すると、グローバル再起動管理スキーム、R-Treeベースインデックス内のサンプル収集、グローバルな粒子性能に基づくサンプリング動作の適応、ローカル検索への具体的なアプローチの4つの特徴がある。
論文 参考訳(メタデータ) (2020-02-28T00:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。