論文の概要: Operator-Theoretic Foundations and Policy Gradient Methods for General MDPs with Unbounded Costs
- arxiv url: http://arxiv.org/abs/2603.17875v1
- Date: Wed, 18 Mar 2026 16:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.809545
- Title: Operator-Theoretic Foundations and Policy Gradient Methods for General MDPs with Unbounded Costs
- Title(参考訳): 非有界コストの一般MDPに対する演算子理論の基礎と政策勾配法
- Authors: Abhishek Gupta, Aditya Mahajan,
- Abstract要約: マルコフ決定過程(MDPs)は、一般関数空間上のある線型作用素に対する目的関数の最適化と見なされる。
この観点では、線形作用素のよく確立された摂動理論を用いて、目的関数の微分を線型作用素の函数として特定することができる。
これにより、状態空間と行動空間を生成するケースに対する強化学習において、よく知られた多くの結果が一般化される。
- 参考スコア(独自算出の注目度): 9.643093537980624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Markov decision processes (MDPs) is viewed as an optimization of an objective function over certain linear operators over general function spaces. Using the well-established perturbation theory of linear operators, this viewpoint allows one to identify derivatives of the objective function as a function of the linear operators. This leads to generalization of many well-known results in reinforcement learning to cases with generate state and action spaces. Prior results of this type were only established in the finite-state finite-action MDP settings and in settings with certain linear function approximations. The framework also leads to new low-complexity PPO-type reinforcement learning algorithms for general state and action space MDPs.
- Abstract(参考訳): マルコフ決定過程(MDPs)は、一般関数空間上のある線型作用素に対する目的関数の最適化と見なされる。
この観点では、線形作用素のよく確立された摂動理論を用いて、目的関数の微分を線型作用素の函数として特定することができる。
これにより、状態空間と行動空間を生成するケースに対する強化学習において、よく知られた多くの結果が一般化される。
このタイプの以前の結果は有限状態有限作用 MDP 設定とある種の線形関数近似による設定でのみ確立された。
このフレームワークは、一般状態および行動空間 MDP のための新しい低複雑さ PPO 型強化学習アルゴリズムにも繋がる。
関連論文リスト
- Operator World Models for Reinforcement Learning [37.69110422996011]
Policy Mirror Descent (PMD) は、シーケンシャルな意思決定のための強力で理論的に健全な方法論である。
明示的なアクション値関数が利用できないため、強化学習(Reinforcement Learning, RL)には直接適用できない。
本研究では,条件付き平均埋め込みを用いた環境のワールドモデル学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-28T12:05:47Z) - Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Non-Linear Reinforcement Learning in Large Action Spaces: Structural Conditions and Sample-efficiency of Posterior Sampling [28.371541697552928]
一般作用空間を線形埋め込み性条件下で保持する非線形関数近似の最初の結果を示す。
最悪の場合,RL問題のランクパラメータでスケールが保証される。
論文 参考訳(メタデータ) (2022-03-15T20:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。