Fugu-MT 論文翻訳(概要): Multi-Bellman operator for convergence of $Q$-learning with linear function approximation

論文の概要: Multi-Bellman operator for convergence of $Q$-learning with linear function approximation

arxiv url: http://arxiv.org/abs/2309.16819v1
Date: Thu, 28 Sep 2023 19:56:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 16:25:53.019206
Title: Multi-Bellman operator for convergence of $Q$-learning with linear function approximation
Title（参考訳）: 線形関数近似を用いた$Q$学習の収束のためのマルチベルマン演算子
Authors: Diogo S. Carvalho, Pedro A. Santos, Francisco S. Melo
Abstract要約: 線形関数近似を用いた$Q$-learningの収束について検討する。新規なマルチベルマン作用素の性質を探索することにより、投影されたマルチベルマン作用素が収縮する条件を特定する。このアルゴリズムは、射影されたマルチベルマン作用素の固定点に収束し、任意の精度の解が得られることを示す。
参考スコア（独自算出の注目度）: 3.6218162133579694
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the convergence of $Q$-learning with linear function approximation. Our key contribution is the introduction of a novel multi-Bellman operator that extends the traditional Bellman operator. By exploring the properties of this operator, we identify conditions under which the projected multi-Bellman operator becomes contractive, providing improved fixed-point guarantees compared to the Bellman operator. To leverage these insights, we propose the multi $Q$-learning algorithm with linear function approximation. We demonstrate that this algorithm converges to the fixed-point of the projected multi-Bellman operator, yielding solutions of arbitrary accuracy. Finally, we validate our approach by applying it to well-known environments, showcasing the effectiveness and applicability of our findings.
Abstract（参考訳）: 線形関数近似を用いた$Q$-learningの収束について検討する。我々の重要な貢献は、従来のベルマン作用素を拡張する新しいマルチベルマン作用素の導入である。この演算子の特性を探索することにより、投影されたマルチベルマン作用素が収縮する条件を特定し、ベルマン作用素と比較して固定点保証が改善される。これらの知見を活用するために,線形関数近似を用いた多値学習アルゴリズムを提案する。このアルゴリズムは射影マルチベルマン作用素の固定点に収束し、任意の精度の解が得られることを示す。最後に,この手法をよく知られた環境に適用し,本研究の有効性と適用性を示した。

関連論文リスト

Spectral Bellman Method: Unifying Representation and Exploration in RL [54.71169912483302]
この研究は、価値に基づく強化学習のための表現を学習するための新しいフレームワークであるSpectral Bellman Representationを紹介する。ベルマン力学と特徴共分散を整合させることにより,学習した表現が構造化された探索を可能にすることを示す。我々のフレームワークは、自然に強力なマルチステップベルマン演算子に拡張され、その影響をさらに拡大します。
論文参考訳（メタデータ） (2025-07-17T14:50:52Z)
Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning [47.57615889991631]
連続行動空間の場合、アクター批判法はオンライン強化学習(RL)において広く用いられている。本研究では,ベルマン最適度演算子をアクター批判フレームワークに組み込むことの有効性を検討した。
論文参考訳（メタデータ） (2025-06-06T10:46:20Z)
Nonparametric Sparse Online Learning of the Koopman Operator [11.710740395697128]
クープマン作用素は、一般的な非線形力学系の力学を表現する強力なフレームワークを提供する。クープマン作用素を学ぶためのデータ駆動手法は、選択された関数空間がシステム力学の下で閉じていると仮定するのが一般的である。演算子近似アルゴリズムを用いて、演算子を反復的に学習し、表現の複雑さの制御を行う。
論文参考訳（メタデータ） (2025-01-27T20:48:10Z)
Operator Learning of Lipschitz Operators: An Information-Theoretic Perspective [2.375038919274297]
この研究は、リプシッツ連続作用素の一般クラスに対する神経作用素近似の複雑さに対処する。我々の主な貢献は、2つの近似設定におけるリプシッツ作用素の計量エントロピーの低い境界を確立することである。使用したアクティベーション関数にかかわらず、近似精度が$epsilon$に達する神経オペレーターアーキテクチャは、$epsilon-1$で指数関数的に大きいサイズでなければならない。
論文参考訳（メタデータ） (2024-06-26T23:36:46Z)
Nonparametric Sparse Online Learning of the Koopman Operator [11.710740395697128]
クープマン作用素は、一般的な非線形力学系の力学を表現する強力なフレームワークを提供する。クープマン作用素を学ぶためのデータ駆動手法は、選択された関数空間がシステム力学の下で閉じていると仮定するのが一般的である。演算子近似アルゴリズムを用いて、演算子を反復的に学習し、表現の複雑さの制御を行う。
論文参考訳（メタデータ） (2024-05-13T02:18:49Z)
Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning [19.4531905603925]
i-QNは、アクション値関数の調整されたシーケンスを学習することで、複数の連続したベルマン更新を可能にする、原則化されたアプローチである。 i-QNは理論的に根拠があり、値ベースおよびアクター批判的手法でシームレスに使用できることを示す。
論文参考訳（メタデータ） (2024-03-04T15:07:33Z)
Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文参考訳（メタデータ） (2024-01-26T20:45:40Z)
Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文参考訳（メタデータ） (2023-12-20T09:33:16Z)
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-30T17:26:39Z)
Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文参考訳（メタデータ） (2022-04-20T21:15:38Z)
Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文参考訳（メタデータ） (2021-06-09T12:20:46Z)
Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文参考訳（メタデータ） (2021-02-17T18:54:08Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。