論文の概要: Regularized Q-Learning with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2401.15196v1
- Date: Fri, 26 Jan 2024 20:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 19:38:19.409406
- Title: Regularized Q-Learning with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた正規化Q-Learning
- Authors: Jiachen Xi, Alfredo Garcia, Petar Momcilovic
- Abstract要約: 本稿では,有限時間収束保証によるベルマン誤差最小化のための単一ループアルゴリズムについて考察する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
- 参考スコア(独自算出の注目度): 3.10770247120758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several successful reinforcement learning algorithms make use of
regularization to promote multi-modal policies that exhibit enhanced
exploration and robustness. With functional approximation, the convergence
properties of some of these algorithms (e.g. soft Q-learning) are not well
understood. In this paper, we consider a single-loop algorithm for minimizing
the projected Bellman error with finite time convergence guarantees in the case
of linear function approximation. The algorithm operates on two scales: a
slower scale for updating the target network of the state-action values, and a
faster scale for approximating the Bellman backups in the subspace of the span
of basis vectors. We show that, under certain assumptions, the proposed
algorithm converges to a stationary point in the presence of Markovian noise.
In addition, we provide a performance guarantee for the policies derived from
the proposed algorithm.
- Abstract(参考訳): いくつかの強化学習アルゴリズムは、探索と堅牢性の強化を示すマルチモーダルポリシーを促進するために正規化を利用する。
関数近似では、これらのアルゴリズムの収束特性(ソフトQ-ラーニングなど)はよく理解されていない。
本稿では,線形関数近似の場合の有限時間収束保証により,投影されたベルマン誤差を最小化する単一ループアルゴリズムについて考察する。
このアルゴリズムは、状態動作値のターゲットネットワークを更新するためのより遅いスケールと、基底ベクトルのスパン部分空間におけるベルマンバックアップを近似する高速なスケールの2つのスケールで動作する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
また,提案アルゴリズムから得られたポリシーに対して性能保証を行う。
関連論文リスト
- Reinforcement Learning with Unbiased Policy Evaluation and Linear
Function Approximation [11.345796608258434]
マルコフ決定プロセスを制御するためのシミュレーションベースのポリシーイテレーションの変種に対して,性能保証を提供する。
第一のアルゴリズムは最小二乗アプローチを伴い、各反復において、特徴ベクトルに関連する新しい重みの集合が少なくとも二乗によって得られる。
第2のアルゴリズムは、最小二乗解への勾配降下を数ステップ行う2段階の近似アルゴリズムを含む。
論文 参考訳(メタデータ) (2022-10-13T20:16:19Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical
Comparison [17.692408242465763]
バッチ強化学習において、$Qstar$を近似する2つのアルゴリズムの性能保証を証明する。
アルゴリズムの1つは、ベルマン誤差推定における悪名高い「二重サンプリング」困難を克服するために、新しく明確な重要度重み付け補正を使用する。
論文 参考訳(メタデータ) (2020-03-09T05:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。