論文の概要: Voronoi Progressive Widening: Efficient Online Solvers for Continuous
State, Action, and Observation POMDPs
- arxiv url: http://arxiv.org/abs/2012.10140v3
- Date: Thu, 1 Apr 2021 09:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 01:08:01.560666
- Title: Voronoi Progressive Widening: Efficient Online Solvers for Continuous
State, Action, and Observation POMDPs
- Title(参考訳): voronoi progressive widening: 連続状態、動作、観察のための効率的なオンラインソルバ
- Authors: Michael H. Lim, Claire J. Tomlin, Zachary N. Sunberg
- Abstract要約: Voronoi Progressive Widening(VPW)は、Voronoi Optimization(VOO)の一般化と、部分的に観測可能なマルコフ決定プロセス(POMDP)へのアクションプログレッシブワイディングである。
本稿では,2つのvpwアルゴリズムを提案し,理論およびシミュレーションの観点から解析する。
- 参考スコア(独自算出の注目度): 29.84376559806967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Voronoi Progressive Widening (VPW), a generalization of
Voronoi optimistic optimization (VOO) and action progressive widening to
partially observable Markov decision processes (POMDPs). Tree search algorithms
can use VPW to effectively handle continuous or hybrid action spaces by
efficiently balancing local and global action searching. This paper proposes
two VPW-based algorithms and analyzes them from theoretical and simulation
perspectives. Voronoi Optimistic Weighted Sparse Sampling (VOWSS) is a
theoretical tool that justifies VPW-based online solvers, and it is the first
algorithm with global convergence guarantees for continuous state, action, and
observation POMDPs. Voronoi Optimistic Monte Carlo Planning with Observation
Weighting (VOMCPOW) is a versatile and efficient algorithm that consistently
outperforms state-of-the-art POMDP algorithms in several simulation
experiments.
- Abstract(参考訳): 本稿では,voronoi progressive widening (vpw) とvoronoi progressive optimization (voo) の一般化と,部分可観測マルコフ決定プロセス (pomdps) へのアクションプログレッシブ拡張を提案する。
ツリー探索アルゴリズムは、局所的および大域的アクション探索を効率的にバランスさせることで、連続的またはハイブリッドなアクション空間を効果的に扱うためにvpwを利用することができる。
本稿では,2つのvpwアルゴリズムを提案し,理論およびシミュレーションの観点から解析する。
Voronoi Optimistic Weighted Sparse Smpling (VOWSS)はVPWベースのオンラインソルバを正当化する理論ツールであり、連続状態、動作、観察POMDPのグローバル収束を保証する最初のアルゴリズムである。
Voronoi Optimistic Monte Carlo Planning with Observation Weighting (VOMCPOW) は、様々なシミュレーション実験において、最先端のPOMDPアルゴリズムを一貫して上回る、汎用的で効率的なアルゴリズムである。
関連論文リスト
- An Invariant Information Geometric Method for High-Dimensional Online
Optimization [9.538618632613714]
本稿では,対応するフレームワークから派生した,完全な不変性指向進化戦略アルゴリズムを提案する。
ベイズ最適化と進化戦略における主要なアルゴリズムに対してSynCMAをベンチマークする。
あらゆるシナリオにおいて、SynCMAはサンプル効率において他のアルゴリズムよりも優れた能力を示す。
論文 参考訳(メタデータ) (2024-01-03T07:06:26Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - PAO: A general particle swarm algorithm with exact dynamics and
closed-form transition densities [0.0]
粒子群最適化(PSO)アプローチは多くの応用分野において非常に効果的であることが証明されている。
本研究では, PSOアルゴリズムの高一般性, 解釈可能な変種であるパーティクル・アトラクター・アルゴリズム (PAO) を提案する。
論文 参考訳(メタデータ) (2023-04-28T16:19:27Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Adaptive Online Optimization with Predictions: Static and Dynamic
Environments [5.553963083111226]
我々は,勾配予測,関数予測,ダイナミックスを利用する新しいステップサイズルールとOCOアルゴリズムを提案する。
提案アルゴリズムは、参照アクションシーケンスのダイナミックスの観点から、静的および動的後悔境界を楽しむ。
コンベックスと強いコンベックスの両コストについて検討した。
論文 参考訳(メタデータ) (2022-05-01T11:03:33Z) - A novel multiobjective evolutionary algorithm based on decomposition and
multi-reference points strategy [14.102326122777475]
分解に基づく多目的進化アルゴリズム(MOEA/D)は、多目的最適化問題(MOP)を解く上で、極めて有望なアプローチであると考えられている。
本稿では,よく知られたPascoletti-Serafiniスキャラライゼーション法とマルチ参照ポイントの新たな戦略により,MOEA/Dアルゴリズムの改良を提案する。
論文 参考訳(メタデータ) (2021-10-27T02:07:08Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - Generalized Self-Adapting Particle Swarm Optimization algorithm with
archive of samples [0.0]
本稿では,M-GAPSOと呼ばれるアルゴリズムの新バージョンを紹介する。
GAPSOの当初の定式化と比較すると、グローバル再起動管理スキーム、R-Treeベースインデックス内のサンプル収集、グローバルな粒子性能に基づくサンプリング動作の適応、ローカル検索への具体的なアプローチの4つの特徴がある。
論文 参考訳(メタデータ) (2020-02-28T00:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。