論文の概要: Warm-Start Actor-Critic: From Approximation Error to Sub-optimality Gap
- arxiv url: http://arxiv.org/abs/2306.11271v1
- Date: Tue, 20 Jun 2023 03:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:42:39.823158
- Title: Warm-Start Actor-Critic: From Approximation Error to Sub-optimality Gap
- Title(参考訳): Warm-Start Actor-Critic:近似誤差から準最適ギャップへ
- Authors: Hang Wang, Sen Lin, Junshan Zhang
- Abstract要約: 本研究では,不正確なアクタ/クライブ更新による有限時間学習性能に対する近似誤差の影響について検討する。
この結果から,オンライン学習におけるアルゴリズムバイアスを低減することが不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 31.115084475673793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Warm-Start reinforcement learning (RL), aided by a prior policy obtained from
offline training, is emerging as a promising RL approach for practical
applications. Recent empirical studies have demonstrated that the performance
of Warm-Start RL can be improved \textit{quickly} in some cases but become
\textit{stagnant} in other cases, especially when the function approximation is
used. To this end, the primary objective of this work is to build a fundamental
understanding on ``\textit{whether and when online learning can be
significantly accelerated by a warm-start policy from offline RL?}''.
Specifically, we consider the widely used Actor-Critic (A-C) method with a
prior policy. We first quantify the approximation errors in the Actor update
and the Critic update, respectively. Next, we cast the Warm-Start A-C algorithm
as Newton's method with perturbation, and study the impact of the approximation
errors on the finite-time learning performance with inaccurate Actor/Critic
updates. Under some general technical conditions, we derive the upper bounds,
which shed light on achieving the desired finite-learning performance in the
Warm-Start A-C algorithm. In particular, our findings reveal that it is
essential to reduce the algorithm bias in online learning.
We also obtain lower bounds on the sub-optimality gap of the Warm-Start A-C
algorithm to quantify the impact of the bias and error propagation.
- Abstract(参考訳): オフライントレーニングから得られた事前方針を援用したウォームスタート強化学習(rl)が、実用的なアプリケーションのための有望なrlアプローチとして登場している。
近年の実証研究により、ウォームスタートrlの性能は一部のケースでは \textit{quickly} が改善されるが、他のケースでは \textit{stagnant} となることが示されている。
この目的のために、この研究の主な目的は、オフラインのRLからのウォームスタートポリシーによってオンライン学習が著しく加速できるかどうか、そして、いつ、オンライン学習が大幅に加速できるか、という根本的な理解を構築することである。
}''.
具体的には,アクター・クリティカル法 (A-C法) を事前ポリシーで検討する。
まず,アクタ更新と批評家更新の近似誤差を定量化する。
次に,Warm-Start A-Cアルゴリズムを摂動を伴うニュートンの手法として用い,不正確なアクタ/Critic更新による有限時間学習性能に対する近似誤差の影響について検討した。
いくつかの技術的条件下では、Warm-Start A-Cアルゴリズムにおいて所望の有限学習性能を達成するための上限を導出する。
特に,オンライン学習におけるアルゴリズムバイアスの低減が重要であることが明らかとなった。
また,ウォームスタートa-cアルゴリズムのサブ最適ギャップに対する下限を求め,バイアスと誤差伝播の影響を定量化する。
関連論文リスト
- Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Learning to Warm-Start Fixed-Point Optimization Algorithms [12.91202184438177]
固定点最適化アルゴリズムのウォームスタートに機械学習フレームワークを導入する。
固定点残差や基底真理解の距離を最小化するために設計された2つの損失関数を提案する。
私たちのアーキテクチャの重要な特徴は、その柔軟性であり、任意のステップで実行される固定ポイントアルゴリズムのウォームスタートを予測できることです。
論文 参考訳(メタデータ) (2023-09-14T16:22:14Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence [7.586600116278698]
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Inertial Proximal Deep Learning Alternating Minimization for Efficient
Neutral Network Training [16.165369437324266]
この研究は、有名な慣性手法であるiPDLAMによって改良されたDLAMを開発し、電流と最後の繰り返しの線形化によって点を予測する。
実世界のデータセットの数値計算結果を報告し,提案アルゴリズムの有効性を実証した。
論文 参考訳(メタデータ) (2021-01-30T16:40:08Z) - Exact Asymptotics for Linear Quadratic Adaptive Control [6.287145010885044]
最も単純な非帯域強化学習問題である線形二次制御(LQAC)について検討する。
ステップワイズ更新LQACアルゴリズムの残差,推定誤差,予測誤差の式を導出する。
安定系と不安定系のシミュレーションにおいて、我々の理論はアルゴリズムの有限サンプル挙動を著しくよく記述している。
論文 参考訳(メタデータ) (2020-11-02T22:43:30Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。