論文の概要: Q-Measure-Learning for Continuous State RL: Efficient Implementation and Convergence
- arxiv url: http://arxiv.org/abs/2603.03523v1
- Date: Tue, 03 Mar 2026 21:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.087857
- Title: Q-Measure-Learning for Continuous State RL: Efficient Implementation and Convergence
- Title(参考訳): 継続的状態RLのためのQ-Measure-Learning:効率的な実装と収束
- Authors: Shengbo Wang,
- Abstract要約: 連続状態空間を持つ無限水平割引マルコフ決定過程における強化学習について検討する。
本稿では,訪問状態-行動ペアで支援された署名付き実証尺度を学習する新しいQ-Measure-Learningを提案する。
- 参考スコア(独自算出の注目度): 10.189658648290257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reinforcement learning in infinite-horizon discounted Markov decision processes with continuous state spaces, where data are generated online from a single trajectory under a Markovian behavior policy. To avoid maintaining an infinite-dimensional, function-valued estimate, we propose the novel Q-Measure-Learning, which learns a signed empirical measure supported on visited state-action pairs and reconstructs an action-value estimate via kernel integration. The method jointly estimates the stationary distribution of the behavior chain and the Q-measure through coupled stochastic approximation, leading to an efficient weight-based implementation with $O(n)$ memory and $O(n)$ computation cost per iteration. Under uniform ergodicity of the behavior chain, we prove almost sure sup-norm convergence of the induced Q-function to the fixed point of a kernel-smoothed Bellman operator. We also bound the approximation error between this limit and the optimal $Q^*$ as a function of the kernel bandwidth. To assess the performance of our proposed algorithm, we conduct RL experiments in a two-item inventory control setting.
- Abstract(参考訳): 無限水平割引マルコフ決定過程における強化学習を連続状態空間を用いて研究し、マルコフの行動ポリシーの下で1つの軌道からデータをオンラインに生成する。
無限次元関数値推定の維持を避けるため,訪問状態と動作状態のペアに支持された符号付き経験的尺度を学習し,カーネル統合による動作値推定を再構築する新しいQ-Measure-Learningを提案する。
本手法は, 連成確率近似による行動連鎖とQ尺度の定常分布を共同で推定し, 1イテレーションあたりのO(n)$メモリと$O(n)$計算コストで効率的な重みベースの実装を実現する。
挙動連鎖の均一なエルゴード性の下では、誘導されたQ-函数の超ノルム収束が、カーネル平滑なベルマン作用素の固定点にほぼ確実に収束することが証明される。
また、カーネル帯域幅の関数として、この極限と最適な$Q^*$の間に近似誤差をバインドする。
提案アルゴリズムの性能を評価するため,2項目の在庫管理設定でRL実験を行う。
関連論文リスト
- Stabilizing Fixed-Point Iteration for Markov Chain Poisson Equations [49.702772230127465]
有限状態マルコフ鎖を$n$状態と遷移行列$P$で研究する。
すべての非退化モードが実周辺不変部分空間 $mathcalK(P)$ によってキャプチャされ、商空間 $mathbbRn/mathcalK(P) 上の誘導作用素が厳密に収縮し、ユニークな商解が得られることを示す。
論文 参考訳(メタデータ) (2026-01-31T02:57:01Z) - Reinforcement Learning with Function Approximation for Non-Markov Processes [2.0136462287587675]
非マルコフ状態およびコストプロセス下で線形関数近似を用いた強化学習法について検討した。
このアルゴリズムは、基礎となる非マルコフ過程において、適切なエルゴディディティ条件の下で収束することを示す。
得られた学習アルゴリズムの限界に対して、明示的なエラー境界を導出する。
論文 参考訳(メタデータ) (2026-01-01T00:56:18Z) - Finite-Time Bounds for Distributionally Robust TD Learning with Linear Function Approximation [5.638124543342179]
線形関数近似を用いた最初の頑健な時間差学習を提案する。
我々の結果は、ロバストなRLアルゴリズムの実証的な成功と、ロバストでないアルゴリズムが享受する漸近的保証との間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-10-02T07:01:41Z) - Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。
マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - Provably Efficient RL under Episode-Wise Safety in Constrained MDPs with Linear Function Approximation [32.74649239695449]
制約決定過程(CMDP)における強化学習問題について検討する。
本稿では,リニアCMDPに対するRLアルゴリズムを提案する。
その結果,近年の線形CMDPアルゴリズムでは,制約に違反するか,指数計算コストに悪影響を及ぼす結果が得られた。
論文 参考訳(メタデータ) (2025-02-14T13:07:25Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。