論文の概要: Reinforcement Learning with Function Approximation for Non-Markov Processes
- arxiv url: http://arxiv.org/abs/2601.00151v1
- Date: Thu, 01 Jan 2026 00:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.285143
- Title: Reinforcement Learning with Function Approximation for Non-Markov Processes
- Title(参考訳): 非マルコフ過程に対する関数近似を用いた強化学習
- Authors: Ali Devran Kara,
- Abstract要約: 非マルコフ状態およびコストプロセス下で線形関数近似を用いた強化学習法について検討した。
このアルゴリズムは、基礎となる非マルコフ過程において、適切なエルゴディディティ条件の下で収束することを示す。
得られた学習アルゴリズムの限界に対して、明示的なエラー境界を導出する。
- 参考スコア(独自算出の注目度): 2.0136462287587675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reinforcement learning methods with linear function approximation under non-Markov state and cost processes. We first consider the policy evaluation method and show that the algorithm converges under suitable ergodicity conditions on the underlying non-Markov processes. Furthermore, we show that the limit corresponds to the fixed point of a joint operator composed of an orthogonal projection and the Bellman operator of an auxiliary \emph{Markov} decision process. For Q-learning with linear function approximation, as in the Markov setting, convergence is not guaranteed in general. We show, however, that for the special case where the basis functions are chosen based on quantization maps, the convergence can be shown under similar ergodicity conditions. Finally, we apply our results to partially observed Markov decision processes, where finite-memory variables are used as state representations, and we derive explicit error bounds for the limits of the resulting learning algorithms.
- Abstract(参考訳): 非マルコフ状態およびコストプロセス下で線形関数近似を用いた強化学習法について検討した。
まず、ポリシー評価法を検討し、そのアルゴリズムが、基礎となる非マルコフ過程において、適切なエルゴディディティ条件の下で収束することを示す。
さらに、この極限は直交射影と補助的な \emph{Markov} 決定過程のベルマン作用素からなるジョイント作用素の定点に対応することを示す。
線型関数近似を用いたQ-ラーニングでは、マルコフの設定のように収束は一般に保証されない。
しかしながら、基底関数が量子化写像に基づいて選択される特別な場合において、収束は同様のエルゴード性条件下で表されることを示す。
最後に,有限メモリ変数を状態表現として使用するマルコフ決定過程に適用し,学習アルゴリズムの限界に対する明示的なエラー境界を導出する。
関連論文リスト
- Uncertainty Quantification with Bayesian Higher Order ReLU KANs [0.0]
本稿では,コルモゴロフ・アルノルドネットワークの領域における不確実性定量化手法について紹介する。
簡単な一次元関数を含む一連の閉包試験により,本手法の有効性を検証した。
本稿では,ある項を包含することで導入された機能的依存関係を正しく識別する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-10-02T15:57:18Z) - Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Approximating Euclidean by Imprecise Markov Decision Processes [3.0017241250121383]
我々は、ユークリッド過程が有限状態近似によって近似されるとき、どのような近似保証が得られるかを検討する。
有限時間地平線上のコスト関数について、近似が任意に正確になることを示す。
論文 参考訳(メタデータ) (2020-06-26T11:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。