論文の概要: Zipfian environments for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.08222v1
- Date: Tue, 15 Mar 2022 19:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 09:03:25.636200
- Title: Zipfian environments for Reinforcement Learning
- Title(参考訳): 強化学習のためのZipfian環境
- Authors: Stephanie C. Y. Chan and Andrew K. Lampinen and Pierre H. Richemond
and Felix Hill
- Abstract要約: シュキュード体験からしっかり学習することは、シミュレーションや研究室を超えてDeep RL手法を適用する上で重要な課題であることを示す。
エージェントの経験がZipfian(離散電力法則)分布によって異なる3つの相補的なRL環境を開発する。
この結果から, シュキュード・エクスペリエンスからの学習が, シミュレーションや実験室を超えて深部RL法を適用する上で重要な課題であることが示唆された。
- 参考スコア(独自算出の注目度): 19.309119596790563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As humans and animals learn in the natural world, they encounter
distributions of entities, situations and events that are far from uniform.
Typically, a relatively small set of experiences are encountered frequently,
while many important experiences occur only rarely. The highly-skewed,
heavy-tailed nature of reality poses particular learning challenges that humans
and animals have met by evolving specialised memory systems. By contrast, most
popular RL environments and benchmarks involve approximately uniform variation
of properties, objects, situations or tasks. How will RL algorithms perform in
worlds (like ours) where the distribution of environment features is far less
uniform? To explore this question, we develop three complementary RL
environments where the agent's experience varies according to a Zipfian
(discrete power law) distribution. On these benchmarks, we find that standard
Deep RL architectures and algorithms acquire useful knowledge of common
situations and tasks, but fail to adequately learn about rarer ones. To
understand this failure better, we explore how different aspects of current
approaches may be adjusted to help improve performance on rare events, and show
that the RL objective function, the agent's memory system and self-supervised
learning objectives can all influence an agent's ability to learn from uncommon
experiences. Together, these results show that learning robustly from skewed
experience is a critical challenge for applying Deep RL methods beyond
simulations or laboratories, and our Zipfian environments provide a basis for
measuring future progress towards this goal.
- Abstract(参考訳): 人間や動物が自然界で学ぶようになると、それらは一様ではない実体、状況、出来事の分布に遭遇する。
典型的には、比較的小さな経験が頻繁に遭遇するが、多くの重要な経験は稀に起こる。
高度に歪んだヘビーテールの現実性は、人間や動物が特別な記憶システムを進化させることによって、特定の学習課題を引き起こす。
対照的に、最も人気のあるRL環境とベンチマークは、プロパティ、オブジェクト、状況、タスクのほぼ均一なバリエーションを含んでいる。
環境特性の分布がそれほど均一ではない世界で、rlアルゴリズムはどのように機能するのか?
そこで本研究では,Zipfian(discrete power law)分布に応じてエージェントの経験が変化する3つの補完的RL環境を開発する。
これらのベンチマークでは、標準のDeep RLアーキテクチャとアルゴリズムが、一般的な状況やタスクの有用な知識を取得するが、より稀なものについて適切に学習することができない。
この障害をよりよく理解するために、現在のアプローチの異なる側面がレアなイベントのパフォーマンスを改善するのにどのように調整されるかを調べ、rlの目的関数、エージェントのメモリシステム、自己監督学習の目的がエージェントのまれな経験から学ぶ能力に影響を与えていることを示す。
これらの結果から, シュキュード体験からの学習はシミュレーションや研究室を超えてディープRL手法を適用する上で重要な課題であり, 我々のZipfian環境はこの目標に向けての今後の進歩を測る基盤となることが示唆された。
関連論文リスト
- Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。
高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。
しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文 参考訳(メタデータ) (2024-01-08T19:25:40Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文 参考訳(メタデータ) (2021-01-01T19:08:24Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。