論文の概要: Provably Efficient and Agile Randomized Q-Learning
- arxiv url: http://arxiv.org/abs/2506.24005v1
- Date: Mon, 30 Jun 2025 16:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.146978
- Title: Provably Efficient and Agile Randomized Q-Learning
- Title(参考訳): おそらく効率的でアジャイルなランダムなQ-Learning
- Authors: He Wang, Xingyu Xu, Yuejie Chi,
- Abstract要約: 我々は、サンプリングベースの探索をアジャイル、ステップワイド、ポリシー更新と統合した新しいQ-ラーニングアルゴリズムをRandomizedQと呼ぶ。
経験的に、RandomizedQは、ボーナスベースとベイズベースで標準ベンチマークを探索する既存のQラーニングモデルと比較して、優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 35.14581235983678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Bayesian-based exploration often demonstrates superior empirical performance compared to bonus-based methods in model-based reinforcement learning (RL), its theoretical understanding remains limited for model-free settings. Existing provable algorithms either suffer from computational intractability or rely on stage-wise policy updates which reduce responsiveness and slow down the learning process. In this paper, we propose a novel variant of Q-learning algorithm, refereed to as RandomizedQ, which integrates sampling-based exploration with agile, step-wise, policy updates, for episodic tabular RL. We establish an $\widetilde{O}(\sqrt{H^5SAT})$ regret bound, where $S$ is the number of states, $A$ is the number of actions, $H$ is the episode length, and $T$ is the total number of episodes. In addition, we present a logarithmic regret bound under a mild positive sub-optimality condition on the optimal Q-function. Empirically, RandomizedQ exhibits outstanding performance compared to existing Q-learning variants with both bonus-based and Bayesian-based exploration on standard benchmarks.
- Abstract(参考訳): ベイズに基づく探索は、モデルベース強化学習(RL)におけるボーナスベースの手法よりも優れた経験的性能を示すことが多いが、その理論的理解はモデルフリーな設定に限られている。
既存の証明可能なアルゴリズムは、計算の難易度に悩まされるか、段階的なポリシー更新に依存しているため、応答性が低下し、学習プロセスが遅くなる。
本稿では,RandomizedQと呼ばれる新しいQ-ラーニングアルゴリズムを提案する。
我々は$\widetilde{O}(\sqrt{H^5SAT})$ regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the episode length, $T$ is the total number of episodes。
さらに, 最適Q-関数に対して, 軽度の正の準最適条件下での対数的後悔を示す。
経験的に、RandomizedQは、ボーナスベースとベイズベースで標準ベンチマークを探索する既存のQラーニングモデルと比較して、優れたパフォーマンスを示している。
関連論文リスト
- Q-learning with Posterior Sampling [3.598052011212994]
本稿では,Q-値のガウス後部を探索に用いる単純なQ-ラーニングアルゴリズムであるPosterior Smpling (P=KH) を用いたQ-ラーニングを提案する。
我々は、P が $tilde O(H2sqrtSAT)$ の後悔境界を達成し、既知の $Omega(HsqrtSAT)$ の低い境界と密接に一致することを示す。
我々の研究は、後続サンプリングと動的プログラミングとTD学習に基づくRLアルゴリズムを組み合わせる上での課題に対する新たな技術的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-01T09:11:24Z) - $β$-DQN: Improving Deep Q-Learning By Evolving the Behavior [41.13282452752521]
$beta$-DQNは、振る舞い関数で標準DQNを拡張する、シンプルで効率的な探索方法である。
適応型メタコントローラは、各エピソードに有効なポリシーを選択し、柔軟で説明可能な探索を可能にするように設計されている。
単純かつ挑戦的な探索領域の実験は、$beta$-DQNが既存のベースラインメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-01-01T18:12:18Z) - Sublinear Regret for a Class of Continuous-Time Linear-Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数(LQ)制御のクラスに対する強化学習(RL)について検討した。
モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,RLアルゴリズムを設計して,適切なポリシパラメータを直接学習する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Addressing Maximization Bias in Reinforcement Learning with Two-Sample Testing [0.0]
過大評価バイアスは、価値に基づく強化学習アルゴリズムに対する既知の脅威である。
平均的な2サンプルテストに基づいて,過大評価と過小評価を柔軟に補間する$T$-Estimator (TE)を提案する。
また、TEと同じバイアスと分散境界に従うK$-Estimator (KE) という一般化も導入する。
論文 参考訳(メタデータ) (2022-01-20T09:22:43Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。