論文の概要: Geometry-Inspired Unified Framework for Discounted and Average Reward MDPs
- arxiv url: http://arxiv.org/abs/2510.23914v1
- Date: Mon, 27 Oct 2025 22:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.607527
- Title: Geometry-Inspired Unified Framework for Discounted and Average Reward MDPs
- Title(参考訳): 測位にインスパイアされた平均再帰型MDPのための統一フレームワーク
- Authors: Arsenii Mustafin, Xinyi Sheng, Dominik Baumann,
- Abstract要約: 我々は,最近導入されたディスカウント・リワード事件に対するMDPの幾何学的解釈を,平均リワード事件まで拡張する。
特異かつエルゴード的な最適ポリシーの下で、バリューイテレーションアルゴリズムは幾何収束率を達成する。
- 参考スコア(独自算出の注目度): 2.236360389849443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The theoretical analysis of Markov Decision Processes (MDPs) is commonly split into two cases - the average-reward case and the discounted-reward case - which, while sharing similarities, are typically analyzed separately. In this work, we extend a recently introduced geometric interpretation of MDPs for the discounted-reward case to the average-reward case, thereby unifying both. This allows us to extend a major result known for the discounted-reward case to the average-reward case: under a unique and ergodic optimal policy, the Value Iteration algorithm achieves a geometric convergence rate.
- Abstract(参考訳): マルコフ決定過程(MDPs)の理論解析は、一般的に2つのケースに分けられる - 平均逆ケースと割引逆ケース - は、類似性を共有しながら、典型的には別々に分析される。
本研究は,近年導入したディスカウント・リワード事件に対するMDPの幾何学的解釈を平均リワード事件に拡張し,両者を統一する。
これにより、値イテレーションアルゴリズムは、一意かつエルゴード的な最適ポリシーの下で、幾何収束率を達成することができる。
関連論文リスト
- Geometric Re-Analysis of Classical MDP Solving Algorithms [15.627546283580166]
我々は最近導入されたMarkov Decision Processs (MDP) の幾何学的解釈に基づいてアルゴリズムを解析する:Value Iteration (VI) と Policy Iteration (PI)。
まず、これらのアルゴリズムの収束保証を改善するために、割引係数を$gammaに変更する変換を含む幾何解析装置を開発する。
論文 参考訳(メタデータ) (2025-03-06T08:29:36Z) - On Value Iteration Convergence in Connected MDPs [17.071971639540976]
本稿では,一意の最適ポリシとエルゴディック関連遷移行列を持つMDPが,値反復アルゴリズムの様々なバージョンを収束させることを確かめる。
論文 参考訳(メタデータ) (2024-06-13T21:17:25Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Random Forest Weighted Local Fréchet Regression with Random Objects [18.128663071848923]
本稿では,新しいランダム森林重み付き局所Fr'echet回帰パラダイムを提案する。
最初の方法は、これらの重みを局所平均として、条件付きFr'echet平均を解くことである。
第二の手法は局所線形Fr'echet回帰を行い、どちらも既存のFr'echet回帰法を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-10T09:10:59Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z) - q-Paths: Generalizing the Geometric Annealing Path using Power Means [51.73925445218366]
我々は、幾何学と算術の混合を特別なケースとして含むパスのファミリーである$q$-pathsを紹介した。
幾何経路から離れた小さな偏差がベイズ推定に経験的利得をもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-01T21:09:06Z) - Averaging on the Bures-Wasserstein manifold: dimension-free convergence
of gradient descent [15.136397170510834]
我々は,新たな測地的凸性の結果を証明し,イテレートのより強力な制御,自由収束を実現した。
また, この手法により, 平均化の概念, エントロピック規則化バリセンタ, 幾何中央値の2つの解析が可能となった。
論文 参考訳(メタデータ) (2021-06-16T01:05:19Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。