論文の概要: Regret of exploratory policy improvement and $q$-learning
- arxiv url: http://arxiv.org/abs/2411.01302v1
- Date: Sat, 02 Nov 2024 16:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:05.781008
- Title: Regret of exploratory policy improvement and $q$-learning
- Title(参考訳): 探索的政策改善の見直しと$q$-learning
- Authors: Wenpin Tang, Xun Yu Zhou,
- Abstract要約: 我々は,Jia と Zhou が導入した$q$-learning および関連アルゴリズムの収束について検討する。
モデルパラメータの成長と規則性に関する適切な条件の下で、探索的政策改善アルゴリズムと$q$-learningアルゴリズムの両方の量的誤りと後悔の分析を行う。
- 参考スコア(独自算出の注目度): 12.07783627081662
- License:
- Abstract: We study the convergence of $q$-learning and related algorithms introduced by Jia and Zhou (J. Mach. Learn. Res., 24 (2023), 161) for controlled diffusion processes. Under suitable conditions on the growth and regularity of the model parameters, we provide a quantitative error and regret analysis of both the exploratory policy improvement algorithm and the $q$-learning algorithm.
- Abstract(参考訳): 我々は,Jia と Zhou (J) が導入した$q$-learning および関連アルゴリズムの収束について検討した。
Mach
学ぶ。
制御拡散過程における24(2023),161。
モデルパラメータの成長と規則性に関する適切な条件の下で、探索的政策改善アルゴリズムと$q$-learningアルゴリズムの両方の量的誤りと後悔の分析を行う。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - $ε$-Policy Gradient for Online Pricing [8.701638362737953]
オンライン価格学習タスクのための$epsilon$-policyグラデーションアルゴリズムを解析する。
このアルゴリズムは、$mathcalO(sqrtT)$$$T$以上の試行錯誤を実現する。
論文 参考訳(メタデータ) (2024-05-06T16:41:52Z) - $\mathbf{(N,K)}$-Puzzle: A Cost-Efficient Testbed for Benchmarking
Reinforcement Learning Algorithms in Generative Language Model [50.636423457653066]
我々は24-Puzzleの一般化版を提示する:$(N,K)$-Puzzle。
我々は、アイデンティティポリシー最適化(IPO)やダイレクトポリシー最適化(DPO)といった新しいアプローチとともに、PPO(Proximal Policy Optimization)のような確立されたRLアルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-11T22:24:14Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Tree-Based Adaptive Model Learning [62.997667081978825]
我々はKearns-Vazirani学習アルゴリズムを拡張し、時間とともに変化するシステムを扱う。
本稿では,学習前の動作を再利用し,更新し,LearnerLibライブラリに実装し,大規模な実例で評価する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T21:24:22Z) - Average-Reward Learning and Planning with Options [9.258958295945467]
我々は,減算マルコフ決定過程(MDP)から平均回帰MDPまで,強化学習における時間的抽象化のためのオプションフレームワークを拡張した。
コントリビューションには、一般の外部選択型学習アルゴリズム、学習値とモデルのためのオプション内アルゴリズム、および学習アルゴリズムのサンプルベース計画亜種が含まれている。
論文 参考訳(メタデータ) (2021-10-26T16:58:05Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z) - On the Reduction of Variance and Overestimation of Deep Q-Learning [0.0]
本稿では,分散度と過大評価量を削減する方法として,深層Q-LearningアルゴリズムにおけるDropout手法を提案する。
また、ベンチマーク環境で実施した実験により、安定性の向上とモデル性能のばらつきと過大評価の両面において、我々の方法論の有効性を実証した。
論文 参考訳(メタデータ) (2019-10-14T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。