論文の概要: GRAC: Self-Guided and Self-Regularized Actor-Critic
- arxiv url: http://arxiv.org/abs/2009.08973v2
- Date: Wed, 11 Nov 2020 02:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:14:56.118622
- Title: GRAC: Self-Guided and Self-Regularized Actor-Critic
- Title(参考訳): GRAC:自己ガイド型・自己調整型アクタークリティカル
- Authors: Lin Shao, Yifan You, Mengyuan Yan, Qingyun Sun, Jeannette Bohg
- Abstract要約: 本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。
また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
- 参考スコア(独自算出の注目度): 24.268453994605512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) algorithms have successfully been
demonstrated on a range of challenging decision making and control tasks. One
dominant component of recent deep reinforcement learning algorithms is the
target network which mitigates the divergence when learning the Q function.
However, target networks can slow down the learning process due to delayed
function updates. Our main contribution in this work is a self-regularized
TD-learning method to address divergence without requiring a target network.
Additionally, we propose a self-guided policy improvement method by combining
policy-gradient with zero-order optimization to search for actions associated
with higher Q-values in a broad neighborhood. This makes learning more robust
to local noise in the Q function approximation and guides the updates of our
actor network. Taken together, these components define GRAC, a novel
self-guided and self-regularized actor critic algorithm. We evaluate GRAC on
the suite of OpenAI gym tasks, achieving or outperforming state of the art in
every environment tested.
- Abstract(参考訳): 深層強化学習(DRL)アルゴリズムは、様々な困難な意思決定と制御タスクでうまく実証されている。
近年の深層強化学習アルゴリズムの主要な構成要素は,Q関数学習時の分岐を緩和するターゲットネットワークである。
しかし、ターゲットネットワークは機能更新の遅れにより学習プロセスを遅くすることができる。
本研究の主な貢献は,ターゲットネットワークを必要とせずに分散に対処する自己正規化TD学習手法である。
さらに,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
これらのコンポーネントは、新しい自己ガイド付き、自己正規化されたアクター批評家アルゴリズムであるGRACを定義する。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
関連論文リスト
- Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Recomposing the Reinforcement Learning Building Blocks with
Hypernetworks [19.523737925041278]
一次ネットワークが条件付き動的ネットワークの重みを決定することを示す。
このアプローチは勾配近似を改善し、学習ステップの分散を低減する。
我々は、RL(TD3とSAC)とMeta-RL(MAMLとPEARL)の両方において、異なる移動タスクと異なるアルゴリズムで一貫した改善を示す。
論文 参考訳(メタデータ) (2021-06-12T19:43:12Z) - Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。
本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T13:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。