論文の概要: Multi-Bellman operator for convergence of $Q$-learning with linear
function approximation
- arxiv url: http://arxiv.org/abs/2309.16819v1
- Date: Thu, 28 Sep 2023 19:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 16:25:53.019206
- Title: Multi-Bellman operator for convergence of $Q$-learning with linear
function approximation
- Title(参考訳): 線形関数近似を用いた$Q$学習の収束のためのマルチベルマン演算子
- Authors: Diogo S. Carvalho, Pedro A. Santos, Francisco S. Melo
- Abstract要約: 線形関数近似を用いた$Q$-learningの収束について検討する。
新規なマルチベルマン作用素の性質を探索することにより、投影されたマルチベルマン作用素が収縮する条件を特定する。
このアルゴリズムは、射影されたマルチベルマン作用素の固定点に収束し、任意の精度の解が得られることを示す。
- 参考スコア(独自算出の注目度): 3.6218162133579694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the convergence of $Q$-learning with linear function approximation.
Our key contribution is the introduction of a novel multi-Bellman operator that
extends the traditional Bellman operator. By exploring the properties of this
operator, we identify conditions under which the projected multi-Bellman
operator becomes contractive, providing improved fixed-point guarantees
compared to the Bellman operator. To leverage these insights, we propose the
multi $Q$-learning algorithm with linear function approximation. We demonstrate
that this algorithm converges to the fixed-point of the projected multi-Bellman
operator, yielding solutions of arbitrary accuracy. Finally, we validate our
approach by applying it to well-known environments, showcasing the
effectiveness and applicability of our findings.
- Abstract(参考訳): 線形関数近似を用いた$Q$-learningの収束について検討する。
我々の重要な貢献は、従来のベルマン作用素を拡張する新しいマルチベルマン作用素の導入である。
この演算子の特性を探索することにより、投影されたマルチベルマン作用素が収縮する条件を特定し、ベルマン作用素と比較して固定点保証が改善される。
これらの知見を活用するために,線形関数近似を用いた多値学習アルゴリズムを提案する。
このアルゴリズムは射影マルチベルマン作用素の固定点に収束し、任意の精度の解が得られることを示す。
最後に,この手法をよく知られた環境に適用し,本研究の有効性と適用性を示した。
関連論文リスト
- Operator Learning of Lipschitz Operators: An Information-Theoretic Perspective [2.375038919274297]
この研究は、リプシッツ連続作用素の一般クラスに対する神経作用素近似の複雑さに対処する。
我々の主な貢献は、2つの近似設定におけるリプシッツ作用素の計量エントロピーの低い境界を確立することである。
使用したアクティベーション関数にかかわらず、近似精度が$epsilon$に達する神経オペレーターアーキテクチャは、$epsilon-1$で指数関数的に大きいサイズでなければならない。
論文 参考訳(メタデータ) (2024-06-26T23:36:46Z) - Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning [19.4531905603925]
i-QNは、アクション値関数の調整されたシーケンスを学習することで、複数の連続したベルマン更新を可能にする、原則化されたアプローチである。
i-QNは理論的に根拠があり、値ベースおよびアクター批判的手法でシームレスに使用できることを示す。
論文 参考訳(メタデータ) (2024-03-04T15:07:33Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。