論文の概要: Reinforcement Learning for Exponential Utility: Algorithms and Convergence in Discounted MDPs
- arxiv url: http://arxiv.org/abs/2605.08053v1
- Date: Fri, 08 May 2026 17:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.248451
- Title: Reinforcement Learning for Exponential Utility: Algorithms and Convergence in Discounted MDPs
- Title(参考訳): 指数的ユーティリティのための強化学習:分散MDPにおけるアルゴリズムと収束性
- Authors: Gugan Thoppe, L. A. Prashanth, Ankur Naskar, Sanjay Bhat,
- Abstract要約: マルコフ決定過程における指数効用最適化のための強化学習(RL)は、原則的値ベースアルゴリズムを欠いている。
2つのQ値型拡張を導出し、関連する作用素が$L_infty$とsup-log/Thompsonメトリクスの縮約であることを示す。
我々は、時間スケールの分離により、ほぼ全周収束を確立し、有限時間収束率を与えるとともに、サブ線形パワーロー演算子によって制御される1時間スケールのアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 2.574071344130061
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning (RL) for exponential-utility optimization in discounted Markov decision processes (MDPs) lacks principled value-based algorithms. We address this gap in the fixed risk-aversion setting. Building on the Bellman-type equation for exponential utility studied in \cite{porteus1975optimality}, we derive two Q-value-style extensions and show that the associated operators are contractions in the $L_\infty$ and sup-log/Thompson metrics, respectively. We characterize their fixed points and prove that the induced greedy stationary policy is optimal for the exponential-utility objective among stationary policies. These structural results lead to two model-free algorithms: a two-timescale Q-learning--style algorithm, for which we establish almost-sure convergence and provide finite-time convergence rates via timescale separation, and a one-timescale algorithm governed by a sublinear power-law operator. Since the latter does not admit a global contraction in standard metrics, we prove its convergence using delicate arguments based on local Lipschitzness, monotonicity, homogeneity, and Dini derivatives, and provide a scalar finite-time analysis that highlights the challenges in obtaining convergence rates in the vector case. Our work provides a foundation for value-based RL under exponential-utility objectives.
- Abstract(参考訳): 割引マルコフ決定過程(MDP)における指数効用最適化のための強化学習(RL)は、原則的値ベースアルゴリズムを欠いている。
固定リスク回避設定におけるこのギャップに対処する。
指数的効用のためのベルマン型方程式に基づいて、二つのQ値型拡張を導出し、関連する作用素がそれぞれ$L_\infty$とsup-log/Thompsonメトリックの縮約であることを示す。
我々はそれらの固定点を特徴付け、誘導された欲求的定常政策が定常政策の指数的効用目標に最適であることを証明した。
これらの構造的結果は、2時間スケールのQ-ラーニングスタイルのアルゴリズムと、時間スケールの分離によってほぼ全周収束を確立し、有限時間収束率を提供するアルゴリズムと、サブ線形のパワーロー演算子によって支配される1時間スケールのアルゴリズムの2つのモデルフリーアルゴリズムに導かれる。
後者は標準計量における大域的縮約を認めないので、局所リプシッツ性、単調性、均一性、およびディニ微分に基づく微妙な議論を用いて収束を証明し、ベクトルの場合の収束率を得る際の課題を強調するスカラー有限時間解析を提供する。
我々の研究は指数効用目標の下で価値に基づくRLの基礎を提供する。
関連論文リスト
- Bridging the Gap Between Average and Discounted TD Learning [14.556544278062793]
平均回帰設定において,政策評価のために明示的に設計された新しいアルゴリズムを提案する。
提案手法は, 適切に定義されたベルマン方程式の一意解への収束を保証することによって, 従来の限界を克服する。
論文 参考訳(メタデータ) (2026-05-03T23:54:36Z) - Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。
マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - A Finite-Sample Analysis of an Actor-Critic Algorithm for Mean-Variance Optimization in a Discounted MDP [1.0923877073891446]
政策評価のために線形関数近似(LFA)を用いた時間差分学習アルゴリズムを解析する。
我々は、(i) を平均二乗の意味で保持し、(ii) を尾の反復平均化の下で高い確率で導く有限サンプル境界を導出する。
これらの結果は、強化学習におけるリスクに敏感なアクター批判法に対する有限サンプル理論的保証を確立する。
論文 参考訳(メタデータ) (2024-06-12T05:49:53Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。