論文の概要: MIME: Mutual Information Minimisation Exploration
- arxiv url: http://arxiv.org/abs/2001.05636v1
- Date: Thu, 16 Jan 2020 04:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 23:35:02.305772
- Title: MIME: Mutual Information Minimisation Exploration
- Title(参考訳): MIME: 相互情報の最小化探索
- Authors: Haitao Xu and Brendan McCane and Lech Szymanski and Craig Atkinson
- Abstract要約: これらの変化は学習が困難であるため, 突然の環境遷移境界において, 驚きによって学習する強化学習エージェントが立ち往生していることを示す。
我々は、相互情報最小化探索と呼ぶ反直感的解を提案する。
エージェントはシャープな遷移境界よりもはるかに優れた性能を示し, 他所でのサブプライム駆動エージェントの性能に適合することを示した。
- 参考スコア(独自算出の注目度): 4.674053902991301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that reinforcement learning agents that learn by surprise (surprisal)
get stuck at abrupt environmental transition boundaries because these
transitions are difficult to learn. We propose a counter-intuitive solution
that we call Mutual Information Minimising Exploration (MIME) where an agent
learns a latent representation of the environment without trying to predict the
future states. We show that our agent performs significantly better over sharp
transition boundaries while matching the performance of surprisal driven agents
elsewhere. In particular, we show state-of-the-art performance on difficult
learning games such as Gravitar, Montezuma's Revenge and Doom.
- Abstract(参考訳): 驚き(サプライサル)によって学習する強化学習エージェントは、これらの遷移が学習しにくいため、突然の環境遷移境界に留まります。
本研究では,MIME(Mutual Information Minimising Exploration)と呼ばれる,エージェントが将来の状態を予測せずに環境の潜在表現を学習する手法を提案する。
エージェントはシャープな遷移境界よりもはるかに優れた性能を示しながら,他のエージェントと同等性能を示す。
特に,Gravitar,Montezuma's Revenge,Doomなどの難学習ゲームにおいて,最先端のパフォーマンスを示す。
関連論文リスト
- Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。
潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。
複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2023-10-13T06:43:11Z) - Behavioral Cloning via Search in Video PreTraining Latent Space [0.13999481573773073]
専門家のデモンストレーションのデータセット上での探索問題として制御問題を定式化する。
我々は,ビデオPreTrainingモデルの潜在表現において,BASALT MineRLデータセットの近接探索を行う。
エージェントは、エージェントの状態表現とデータセットから選択された専門家軌跡との距離が分岐しない限り、専門家軌跡からのアクションをコピーする。
論文 参考訳(メタデータ) (2022-12-27T00:20:37Z) - The StarCraft Multi-Agent Challenges+ : Learning of Multi-Stage Tasks
and Environmental Factors without Precise Reward Functions [14.399479538886064]
本稿では,StarCraft Multi-Agent Challenges+という新しいベンチマークを提案する。
この課題は、マイクロコントロールだけでなく、暗黙のマルチステージタスクや環境要因を効率的に学習するMARLアルゴリズムの探索能力に関心がある。
SMAC+ の MARL アルゴリズムについて検討し,近年の手法は従来の課題とよく似ているが,攻撃的シナリオでは誤動作する。
論文 参考訳(メタデータ) (2022-07-05T12:43:54Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Don't Do What Doesn't Matter: Intrinsic Motivation with Action
Usefulness [34.93728985157331]
内在的モチベーションガイダンスは、通常、新奇な信号を通して新しい状態を探すためにエージェントにインセンティブを与える。
我々は、国家の新規性から関連する行動を伴う状態へと重点を移す、DoWhaM(Don't Do Doesn't Matter)を提案する。
手続き生成環境であるMiniGridにおけるDoWhaMの評価を行い,DowhaMがサンプルの複雑さを大幅に低減することを示す。
論文 参考訳(メタデータ) (2021-05-20T18:55:11Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。