論文の概要: Ecological Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.12478v1
- Date: Mon, 22 Jun 2020 17:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 04:28:08.058422
- Title: Ecological Reinforcement Learning
- Title(参考訳): 生態強化学習
- Authors: John D. Co-Reyes, Suvansh Sanjeev, Glen Berseth, Abhishek Gupta,
Sergey Levine
- Abstract要約: このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
- 参考スコア(独自算出の注目度): 76.9893572776141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much of the current work on reinforcement learning studies episodic settings,
where the agent is reset between trials to an initial state distribution, often
with well-shaped reward functions. Non-episodic settings, where the agent must
learn through continuous interaction with the world without resets, and where
the agent receives only delayed and sparse reward signals, is substantially
more difficult, but arguably more realistic considering real-world environments
do not present the learner with a convenient "reset mechanism" and easy reward
shaping. In this paper, instead of studying algorithmic improvements that can
address such non-episodic and sparse reward settings, we instead study the
kinds of environment properties that can make learning under such conditions
easier. Understanding how properties of the environment impact the performance
of reinforcement learning agents can help us to structure our tasks in ways
that make learning tractable. We first discuss what we term "environment
shaping" -- modifications to the environment that provide an alternative to
reward shaping, and may be easier to implement. We then discuss an even simpler
property that we refer to as "dynamism," which describes the degree to which
the environment changes independent of the agent's actions and can be measured
by environment transition entropy. Surprisingly, we find that even this
property can substantially alleviate the challenges associated with
non-episodic RL in sparse reward settings. We provide an empirical evaluation
on a set of new tasks focused on non-episodic learning with sparse rewards.
Through this study, we hope to shift the focus of the community towards
analyzing how properties of the environment can affect learning and the
ultimate type of behavior that is learned via RL.
- Abstract(参考訳): 強化学習研究の現在の研究の多くは、エージェントが試行の間に初期状態分布にリセットされるエピソディック設定であり、しばしばよく形作られた報酬機能を持つ。
エージェントがリセットせずに世界との継続的な対話を通じて学習しなければならず、エージェントが遅れて報酬信号しか受け取らないような非定型的な設定は、かなり難しいが、現実の環境を考えると、より現実的であり、学習者に便利な「リセットメカニズム」と簡単な報酬形成を提示しない。
本稿では,このような非エポゾディックかつスパースな報酬設定に対処できるアルゴリズムの改良について研究する代わりに,そのような条件下での学習を容易にする環境特性について検討する。
環境の性質が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を扱いやすくする方法でタスクを構造化するのに役立ちます。
まず,報奨シェーピングの代替手段を提供し,実装が容易な環境を改良した,環境シェーピング(environment shaping)と呼ぶものについて論じる。
次に,エージェントの行動によらず環境が変化する程度を記述し,環境遷移エントロピーによって測定できる,より単純な性質をダイナミズムと呼ぶ。
驚くべきことに、この特性でさえ、スパース報酬設定における非エポゾディックRLに関連する課題を著しく軽減することができる。
我々は,非正規学習に着目した一連の新しい課題に対する経験的評価を行った。
本研究では,環境の特性が学習に与える影響や,rlによって学習される行動の究極的タイプについて,コミュニティの焦点を分析に移したいと思っています。
関連論文リスト
- Safer Autonomous Driving in a Stochastic, Partially-Observable
Environment by Hierarchical Contingency Planning [10.971411555103574]
知的エージェントは、環境状態に対する信念の変化を予想する準備をすべきである。
これは特に、安全が最重要となる現実の状況をナビゲートする自動運転車(AV)に当てはまる。
また,本手法により,部分的に観察可能な安全な環境下での堅牢で安全な行動が得られ,トレーニング中に見えない環境に対して良好に一般化できることが示唆された。
論文 参考訳(メタデータ) (2022-04-13T16:47:00Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Evolutionary Reinforcement Learning Dynamics with Irreducible
Environmental Uncertainty [0.0]
我々は,エージェントが環境の現状について絶対的に不確実である進化的強化学習ダイナミクスを導出し,現在に至る。
予測不可能な環境不確実性は、学習結果をより速くし、学習プロセスを安定させ、社会的ジレンマを克服する。
しかし、部分的な可観測性は、例えば破滅的な極限サイクルの形で、学習結果の悪化を引き起こす可能性があることもわかっています。
論文 参考訳(メタデータ) (2021-09-15T12:50:58Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - A Geometric Perspective on Self-Supervised Policy Adaptation [19.0999190751611]
本稿では,現実世界の具体的特徴に類似した長期適応構成を提案する。
この適応プロセス中に埋め込み空間で発生する過程を実証的に記述する。
アクターベースおよびアクターフリーエージェントがターゲット環境にさらに一般化できることを示す。
論文 参考訳(メタデータ) (2020-11-14T15:16:43Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。