論文の概要: Adversarially Guided Actor-Critic
- arxiv url: http://arxiv.org/abs/2102.04376v1
- Date: Mon, 8 Feb 2021 17:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 16:13:12.287530
- Title: Adversarially Guided Actor-Critic
- Title(参考訳): 逆ガイドアクタークリティック
- Authors: Yannis Flet-Berliac and Johan Ferret and Olivier Pietquin and Philippe
Preux and Matthieu Geist
- Abstract要約: 本稿では,第3の主人公である敵を紹介した。
相手は、各行動分布間のKL分割を最小化して役者を模倣するが、その課題の学習に加えて、相手の予測と差別化しようとする。
実験により,Adversarially Guided Actor-Critic (AGAC) アルゴリズムにより,より徹底的な探索が可能となった。
- 参考スコア(独自算出の注目度): 42.76141646708985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite definite success in deep reinforcement learning problems,
actor-critic algorithms are still confronted with sample inefficiency in
complex environments, particularly in tasks where efficient exploration is a
bottleneck. These methods consider a policy (the actor) and a value function
(the critic) whose respective losses are built using different motivations and
approaches. This paper introduces a third protagonist: the adversary. While the
adversary mimics the actor by minimizing the KL-divergence between their
respective action distributions, the actor, in addition to learning to solve
the task, tries to differentiate itself from the adversary predictions. This
novel objective stimulates the actor to follow strategies that could not have
been correctly predicted from previous trajectories, making its behavior
innovative in tasks where the reward is extremely rare. Our experimental
analysis shows that the resulting Adversarially Guided Actor-Critic (AGAC)
algorithm leads to more exhaustive exploration. Notably, AGAC outperforms
current state-of-the-art methods on a set of various hard-exploration and
procedurally-generated tasks.
- Abstract(参考訳): 深層強化学習問題の成功にもかかわらず、アクター-批判的アルゴリズムは依然として複雑な環境、特に効率的な探索がボトルネックであるタスクにおけるサンプル非効率に直面している。
これらの方法は、異なる動機とアプローチを使用してそれぞれの損失が構築される政策(俳優)と価値関数(批評家)を考慮します。
本稿では,第3の主人公である敵役を紹介する。
敵は、それぞれの行動分布の間のklのばらつきを最小化することでアクターを模倣するが、アクターは、そのタスクを解決するための学習に加えて、敵の予測と差別化しようとする。
この新しい目的は、以前の軌道から正しく予測できなかった戦略に従うように俳優を刺激し、報酬が非常にまれなタスクでその行動を革新的にします。
実験により,Adversarially Guided Actor-Critic (AGAC) アルゴリズムにより,より徹底的な探索が可能となった。
特にAGACは、様々なハードエクスプローラーと手続き的に生成されたタスクのセットで、現在の最先端のメソッドを上回っています。
関連論文リスト
- Deep Exploration with PAC-Bayes [12.622116321154113]
スパース報酬下での継続的な制御のための強化学習は、実生活における重要性にもかかわらず、未探索の問題である。
本研究では,PAC-ベイジアンの視点からアクター・クリティカル・ラーニングの文脈において,この深層探査問題に初めて対処する。
提案アルゴリズムは,PAC-Bayesian Actor-Critic (PBAC) と名付けられ,多種多様な連続制御タスクにおけるスパース報酬の発見に成功した唯一のアルゴリズムである。
論文 参考訳(メタデータ) (2024-02-05T14:42:45Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Behavior-Guided Actor-Critic: Improving Exploration via Learning Policy
Behavior Representation for Deep Reinforcement Learning [0.0]
行動誘導アクタークリティカル(BAC)を非政治アクタークリティカル深部RLアルゴリズムとして提案する。
BACは、オートエンコーダを介してポリシーの挙動を数学的に定式化する。
その結果,いくつかの最先端学習アルゴリズムと比較して,BACの性能は有意に向上した。
論文 参考訳(メタデータ) (2021-04-09T15:22:35Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。