論文の概要: Explore and Control with Adversarial Surprise
- arxiv url: http://arxiv.org/abs/2107.07394v1
- Date: Mon, 12 Jul 2021 17:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-17 06:36:08.243065
- Title: Explore and Control with Adversarial Surprise
- Title(参考訳): 敵対的サプライズによる探索と制御
- Authors: Arnaud Fickinger, Natasha Jaques, Samyak Parajuli, Michael Chang,
Nicholas Rhinehart, Glen Berseth, Stuart Russell, Sergey Levine
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
- 参考スコア(独自算出の注目度): 78.41972292110967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) provides a framework for learning goal-directed
policies given user-specified rewards. However, since designing rewards often
requires substantial engineering effort, we are interested in the problem of
learning without rewards, where agents must discover useful behaviors in the
absence of task-specific incentives. Intrinsic motivation is a family of
unsupervised RL techniques which develop general objectives for an RL agent to
optimize that lead to better exploration or the discovery of skills. In this
paper, we propose a new unsupervised RL technique based on an adversarial game
which pits two policies against each other to compete over the amount of
surprise an RL agent experiences. The policies each take turns controlling the
agent. The Explore policy maximizes entropy, putting the agent into surprising
or unfamiliar situations. Then, the Control policy takes over and seeks to
recover from those situations by minimizing entropy. The game harnesses the
power of multi-agent competition to drive the agent to seek out increasingly
surprising parts of the environment while learning to gain mastery over them.
We show empirically that our method leads to the emergence of complex skills by
exhibiting clear phase transitions. Furthermore, we show both theoretically
(via a latent state space coverage argument) and empirically that our method
has the potential to be applied to the exploration of stochastic,
partially-observed environments. We show that Adversarial Surprise learns more
complex behaviors, and explores more effectively than competitive baselines,
outperforming intrinsic motivation methods based on active inference,
novelty-seeking (Random Network Distillation (RND)), and multi-agent
unsupervised RL (Asymmetric Self-Play (ASP)) in MiniGrid, Atari and VizDoom
environments.
- Abstract(参考訳): 強化学習(rl)は、目標指向のポリシーを学習するためのフレームワークを提供する。
しかし,報酬を設計するには工学的な努力を要することが多いため,報酬のない学習の問題に関心があり,エージェントはタスク固有のインセンティブがない場合に有用な行動を見つけなければならない。
内在的モチベーション(英: Intrinsic motivation)は、RLエージェントがより良い探索やスキルの発見につながるように最適化するための汎用的な目標を開発する、教師なしのRL技法のファミリーである。
本稿では,RLエージェントが経験する驚きの量をめぐって,互いに対立する2つのポリシーをピットする対戦ゲームに基づく,新しい教師なしRL手法を提案する。
各ポリシーはエージェントを交代で制御する。
探索政策はエントロピーを最大化し、エージェントを驚きや不慣れな状況に陥らせる。
そして、制御政策が引き継ぎ、エントロピーを最小化することでこれらの状況から回復しようとする。
このゲームはマルチエージェント・コンペティションの力を利用して、エージェントが環境の驚くべき部分を探しながら、それらに熟達することを学ぶ。
本手法が明確な相転移を示すことによって複雑なスキルの出現につながることを実証的に示す。
さらに, 理論的に (潜在状態空間被覆論を通じて) と経験的に, 確率的, 部分的に観測された環境の探索に応用できる可能性が示唆された。
我々は,Adversarial Surpriseがより複雑な振る舞いを学習し,競争ベースラインよりも効果的に探索し,活発な推論に基づく本質的なモチベーション手法,新規性探索(RND),およびMiniGrid,Atari,VizDoom環境におけるマルチエージェント非教師付きRL(Asymmetric Self-Play (ASP))より優れていることを示す。
関連論文リスト
- Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文 参考訳(メタデータ) (2022-05-30T12:44:56Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。