論文の概要: Geometric Re-Analysis of Classical MDP Solving Algorithms
- arxiv url: http://arxiv.org/abs/2503.04203v1
- Date: Thu, 06 Mar 2025 08:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:49.432304
- Title: Geometric Re-Analysis of Classical MDP Solving Algorithms
- Title(参考訳): 古典的MDP解法アルゴリズムの幾何学的再解析
- Authors: Arsenii Mustafin, Aleksei Pakharev, Alex Olshevsky, Ioannis Ch. Paschalidis,
- Abstract要約: 我々は最近導入されたMarkov Decision Processs (MDP) の幾何学的解釈に基づいてアルゴリズムを解析する:Value Iteration (VI) と Policy Iteration (PI)。
まず、これらのアルゴリズムの収束保証を改善するために、割引係数を$gammaに変更する変換を含む幾何解析装置を開発する。
- 参考スコア(独自算出の注目度): 15.627546283580166
- License:
- Abstract: We build on a recently introduced geometric interpretation of Markov Decision Processes (MDPs) to analyze classical MDP-solving algorithms: Value Iteration (VI) and Policy Iteration (PI). First, we develop a geometry-based analytical apparatus, including a transformation that modifies the discount factor $\gamma$, to improve convergence guarantees for these algorithms in several settings. In particular, one of our results identifies a rotation component in the VI method, and as a consequence shows that when a Markov Reward Process (MRP) induced by the optimal policy is irreducible and aperiodic, the asymptotic convergence rate of value iteration is strictly smaller than $\gamma$.
- Abstract(参考訳): 我々は最近導入されたマルコフ決定過程(MDP)の幾何学的解釈に基づいて、従来のMDP解決アルゴリズムである値反復(VI)とポリシー反復(PI)を分析する。
まず、これらのアルゴリズムの収束保証を改善するために、割引係数を$\gamma$に変更する変換を含む幾何解析装置を開発する。
特に、我々の結果の1つはVI法における回転成分を同定し、その結果、最適ポリシーによって誘導されるマルコフ・リワード・プロセス(MRP)が既約かつ周期的であれば、漸近的な値反復の収束速度は$\gamma$よりも厳密に小さいことを示す。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - MDP Geometry, Normalization and Reward Balancing Solvers [15.627546283580166]
本稿では,マルコフ決定過程(MDP)の自然な正規化手順による新しい幾何学的解釈を提案する。
このMDPの利点保存変換は、私たちがReward Balancingと呼ぶアルゴリズムのクラスを動機付けます。
本稿では、このクラスにおけるいくつかのアルゴリズムの収束解析を行い、特に、未知の遷移確率のMDPに対して、最先端のサンプル複雑性の結果を改善することができることを示す。
論文 参考訳(メタデータ) (2024-07-09T09:39:45Z) - Variable Substitution and Bilinear Programming for Aligning Partially Overlapping Point Sets [48.1015832267945]
本研究では,RPMアルゴリズムの最小化目的関数を用いて要求を満たす手法を提案する。
分岐とバウンド(BnB)アルゴリズムが考案され、パラメータのみに分岐し、収束率を高める。
実験による評価は,非剛性変形,位置雑音,外れ値に対する提案手法の高剛性を示す。
論文 参考訳(メタデータ) (2024-05-14T13:28:57Z) - From Optimization to Control: Quasi Policy Iteration [3.4376560669160394]
準政治反復(QPI)と呼ばれる新しい制御アルゴリズムを提案する。
QPIは、政策反復アルゴリズムにおける「ヘシアン」行列の新たな近似に基づいて、MDPに特有の2つの線形構造制約を利用する。
これは、割引係数に対する感度が極めて低い政策反復と同様の実証的な収束挙動を示す。
論文 参考訳(メタデータ) (2023-11-18T21:00:14Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - A unified algorithm framework for mean-variance optimization in
discounted Markov decision processes [7.510742715895749]
本稿では,無限水平割引マルコフ決定過程(MDP)におけるリスク-逆平均分散最適化について検討する。
本稿では,処理不能なMPPを標準形式で再定義された報酬関数を持つ標準形式に変換するための擬似平均を導入する。
平均分散最適化のための2レベル最適化構造を持つ統合アルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T02:19:56Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。