論文の概要: Analysis of Value Iteration Through Absolute Probability Sequences
- arxiv url: http://arxiv.org/abs/2502.03244v1
- Date: Wed, 05 Feb 2025 15:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:26:55.505698
- Title: Analysis of Value Iteration Through Absolute Probability Sequences
- Title(参考訳): 絶対確率列による値反復の解析
- Authors: Arsenii Mustafin, Sebastien Colla, Alex Olshevsky, Ioannis Ch. Paschalidis,
- Abstract要約: 値反復はマルコフ決定過程(MDP)を解くために広く用いられているアルゴリズムである
我々は絶対確率列を用いて新しい解析行を開発し、そのアルゴリズムの収束を$L2$ノルムの観点から検証する。
- 参考スコア(独自算出の注目度): 15.627546283580166
- License:
- Abstract: Value Iteration is a widely used algorithm for solving Markov Decision Processes (MDPs). While previous studies have extensively analyzed its convergence properties, they primarily focus on convergence with respect to the infinity norm. In this work, we use absolute probability sequences to develop a new line of analysis and examine the algorithm's convergence in terms of the $L^2$ norm, offering a new perspective on its behavior and performance.
- Abstract(参考訳): Value Iteration は Markov Decision Processs (MDP) を解くために広く使われているアルゴリズムである。
これまでの研究はその収束特性を広く分析してきたが、それらは主に無限大ノルムに関する収束に焦点を当てている。
本研究では、絶対確率列を用いて新しい解析行を開発し、その振る舞いと性能についての新しい視点を提供するために、$L^2$ノルムの観点からアルゴリズムの収束性を調べる。
関連論文リスト
- A Non-Asymptotic Theory of Seminorm Lyapunov Stability: From Deterministic to Stochastic Iterative Algorithms [15.764613607477887]
半ノルム制約作用素に対する不動点方程式の解法について検討する。
決定論的および基礎的設定の両方において反復アルゴリズムの漸近的動作を確立する。
論文 参考訳(メタデータ) (2025-02-20T02:39:37Z) - Convergence of Expectation-Maximization Algorithm with Mixed-Integer Optimization [5.319361976450982]
本稿では,特定の種類のEMアルゴリズムの収束を保証する一連の条件を紹介する。
本研究では,混合整数非線形最適化問題の解法として,反復アルゴリズムの新しい解析手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T11:42:46Z) - High-Probability Bounds for Stochastic Optimization and Variational
Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。
これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文 参考訳(メタデータ) (2023-02-02T10:37:23Z) - Sharp global convergence guarantees for iterative nonconvex
optimization: A Gaussian process perspective [30.524043513721168]
回帰モデルのクラスに対する反復アルゴリズムの収束を解析するための一般的なレシピを開発する。
決定論的には、有限サンプル状態におけるアルゴリズムの収束率と最終的なエラーフロアの両方を正確にキャプチャする。
我々は、更新の交互化に基づく高次アルゴリズムと、下位次数に基づく一次アルゴリズムの両方に対して、鋭い収束率を示す。
論文 参考訳(メタデータ) (2021-09-20T21:48:19Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - Stochastic Approximation with Markov Noise: Analysis and applications in
reinforcement learning [0.0]
マルコフ雑音によって駆動される2つの時間スケール近似の収束解析を初めて提示する。
両方の時間スケールにおける差分包摂を限定することで、フレームワークの挙動を分析する。
ポリシ評価アルゴリズムの関数近似における最初の情報的誤差境界を求める。
論文 参考訳(メタデータ) (2020-04-08T03:59:21Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Optimization with Momentum: Dynamical, Control-Theoretic, and Symplectic
Perspectives [97.16266088683061]
この論文は、運動量に基づく最適化アルゴリズムにおいてシンプレクティックな離散化スキームが重要であることを厳格に証明している。
これは加速収束を示すアルゴリズムの特性を提供する。
論文 参考訳(メタデータ) (2020-02-28T00:32:47Z) - Probabilistic Contraction Analysis of Iterated Random Operators [10.442391859219807]
バナッハ縮約写像定理は、ある決定論的アルゴリズムの収束を確立するために用いられる。
ランダム化アルゴリズムのクラスでは、各反復において、縮約写像は、ある確率変数の独立分布と同一分布のサンプルを使用する演算子と近似される。
これにより、完備距離空間において初期点に作用する反復ランダム作用素が導かれ、マルコフ連鎖が生成される。
論文 参考訳(メタデータ) (2018-04-04T00:10:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。