論文の概要: Improved Policy Optimization for Online Imitation Learning
- arxiv url: http://arxiv.org/abs/2208.00088v1
- Date: Fri, 29 Jul 2022 22:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:10:27.385400
- Title: Improved Policy Optimization for Online Imitation Learning
- Title(参考訳): オンライン模倣学習のための政策最適化の改善
- Authors: Jonathan Wilder Lavington, Sharan Vaswani, Mark Schmidt
- Abstract要約: オンライン模倣学習(OIL)では,環境との活発な相互作用を通じて専門家の行動を模倣する政策を見出すことが課題である。
- 参考スコア(独自算出の注目度): 17.450401609682544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider online imitation learning (OIL), where the task is to find a
policy that imitates the behavior of an expert via active interaction with the
environment. We aim to bridge the gap between the theory and practice of policy
optimization algorithms for OIL by analyzing one of the most popular OIL
algorithms, DAGGER. Specifically, if the class of policies is sufficiently
expressive to contain the expert policy, we prove that DAGGER achieves constant
regret. Unlike previous bounds that require the losses to be strongly-convex,
our result only requires the weaker assumption that the losses be
strongly-convex with respect to the policy's sufficient statistics (not its
parameterization). In order to ensure convergence for a wider class of policies
and losses, we augment DAGGER with an additional regularization term. In
particular, we propose a variant of Follow-the-Regularized-Leader (FTRL) and
its adaptive variant for OIL and develop a memory-efficient implementation,
which matches the memory requirements of FTL. Assuming that the loss functions
are smooth and convex with respect to the parameters of the policy, we also
prove that FTRL achieves constant regret for any sufficiently expressive policy
class, while retaining $O(\sqrt{T})$ regret in the worst-case. We demonstrate
the effectiveness of these algorithms with experiments on synthetic and
high-dimensional control tasks.
- Abstract(参考訳): オンライン模倣学習(OIL)では,環境との活発な相互作用を通じて専門家の行動を模倣する政策を見出すことが課題である。
我々は,最も人気のあるOILアルゴリズムであるDAGGERを分析し,OILのポリシー最適化アルゴリズムの理論と実践のギャップを埋めることを目的としている。
具体的には、政策のクラスが専門家の政策を包含するのに十分な表現力を持っている場合、DAGGERが絶え間なく後悔することを証明する。
損失が強凸となるような以前の境界とは異なり、我々の結果は政策の十分な統計量(パラメータ化ではない)に関して損失が強凸であるというより弱い仮定しか必要としない。
より広範な政策と損失の収束を確保するため、我々はDAGGERを追加の正規化項で強化する。
特に、FTLのメモリ要件に適合するメモリ効率の実装を、Follow-the-Regularized-Leader(FTRL)の変種とOILの適応型を提案する。
損失関数がポリシーのパラメータに関して滑らかで凸であると仮定すると、FTRLは最悪の場合において$O(\sqrt{T})$後悔を保ちながら、十分な表現力のある政策クラスに対して絶え間なく後悔する。
合成および高次元制御タスクにおける実験により,これらのアルゴリズムの有効性を示す。
関連論文リスト
- Interior Point Constrained Reinforcement Learning with Global
Convergence Guarantees [8.312636217460039]
無限水平制限マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、学習中の制約満足度を保証するアルゴリズムの開発に注力する。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。