論文の概要: Ecological Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.12478v1
- Date: Mon, 22 Jun 2020 17:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 04:28:08.058422
- Title: Ecological Reinforcement Learning
- Title(参考訳): 生態強化学習
- Authors: John D. Co-Reyes, Suvansh Sanjeev, Glen Berseth, Abhishek Gupta,
Sergey Levine
- Abstract要約: このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
- 参考スコア(独自算出の注目度): 76.9893572776141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much of the current work on reinforcement learning studies episodic settings,
where the agent is reset between trials to an initial state distribution, often
with well-shaped reward functions. Non-episodic settings, where the agent must
learn through continuous interaction with the world without resets, and where
the agent receives only delayed and sparse reward signals, is substantially
more difficult, but arguably more realistic considering real-world environments
do not present the learner with a convenient "reset mechanism" and easy reward
shaping. In this paper, instead of studying algorithmic improvements that can
address such non-episodic and sparse reward settings, we instead study the
kinds of environment properties that can make learning under such conditions
easier. Understanding how properties of the environment impact the performance
of reinforcement learning agents can help us to structure our tasks in ways
that make learning tractable. We first discuss what we term "environment
shaping" -- modifications to the environment that provide an alternative to
reward shaping, and may be easier to implement. We then discuss an even simpler
property that we refer to as "dynamism," which describes the degree to which
the environment changes independent of the agent's actions and can be measured
by environment transition entropy. Surprisingly, we find that even this
property can substantially alleviate the challenges associated with
non-episodic RL in sparse reward settings. We provide an empirical evaluation
on a set of new tasks focused on non-episodic learning with sparse rewards.
Through this study, we hope to shift the focus of the community towards
analyzing how properties of the environment can affect learning and the
ultimate type of behavior that is learned via RL.
- Abstract(参考訳): 強化学習研究の現在の研究の多くは、エージェントが試行の間に初期状態分布にリセットされるエピソディック設定であり、しばしばよく形作られた報酬機能を持つ。
エージェントがリセットせずに世界との継続的な対話を通じて学習しなければならず、エージェントが遅れて報酬信号しか受け取らないような非定型的な設定は、かなり難しいが、現実の環境を考えると、より現実的であり、学習者に便利な「リセットメカニズム」と簡単な報酬形成を提示しない。
本稿では,このような非エポゾディックかつスパースな報酬設定に対処できるアルゴリズムの改良について研究する代わりに,そのような条件下での学習を容易にする環境特性について検討する。
環境の性質が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を扱いやすくする方法でタスクを構造化するのに役立ちます。
まず,報奨シェーピングの代替手段を提供し,実装が容易な環境を改良した,環境シェーピング(environment shaping)と呼ぶものについて論じる。
次に,エージェントの行動によらず環境が変化する程度を記述し,環境遷移エントロピーによって測定できる,より単純な性質をダイナミズムと呼ぶ。
驚くべきことに、この特性でさえ、スパース報酬設定における非エポゾディックRLに関連する課題を著しく軽減することができる。
我々は,非正規学習に着目した一連の新しい課題に対する経験的評価を行った。
本研究では,環境の特性が学習に与える影響や,rlによって学習される行動の究極的タイプについて,コミュニティの焦点を分析に移したいと思っています。
関連論文リスト
- EvIL: Evolution Strategies for Generalisable Imitation Learning [33.745657379141676]
模倣学習(IL)の専門家によるデモンストレーションと、学習したポリシをデプロイしたい環境は、まったく同じではありません。
クローンのようなポリシー中心のアプローチと比較すると、逆強化学習(IRL)のような報酬中心のアプローチは、しばしば新しい環境における専門家の振る舞いをよりよく再現する。
最新のディープILアルゴリズムは、専門家よりもはるかに弱いポリシーを導出する報酬を頻繁に回収する。
本研究では,目標環境における再学習を高速化する報酬形成項を最適化する進化戦略に基づく新しい手法であるEvILを提案する。
論文 参考訳(メタデータ) (2024-06-15T22:46:39Z) - Continuously evolving rewards in an open-ended environment [0.0]
RULE: 学習と期待によるリワード更新は、単純化されたエコシステムのような環境でテストされます。
団体の人口は、当初は報われたが最終的に有害な行動の放棄をうまく証明した。
これらの調整は、継続的な学習において、外部の介入なしに、実体の根底にある報酬関数を内在的な修正によって行われる。
論文 参考訳(メタデータ) (2024-05-02T13:07:56Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Environment Design for Inverse Reinforcement Learning [3.085995273374333]
一つの環境から学ぶことに集中する現在の逆強化学習法は、環境力学のわずかな変化に対処できない可能性がある。
本フレームワークでは,学習者がエキスパートと繰り返し対話し,前者の選択環境を使って報酬関数を識別する。
その結果,サンプル効率とロバスト性の両方の改善が得られた。
論文 参考訳(メタデータ) (2022-10-26T18:31:17Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Evolutionary Reinforcement Learning Dynamics with Irreducible
Environmental Uncertainty [0.0]
我々は,エージェントが環境の現状について絶対的に不確実である進化的強化学習ダイナミクスを導出し,現在に至る。
予測不可能な環境不確実性は、学習結果をより速くし、学習プロセスを安定させ、社会的ジレンマを克服する。
しかし、部分的な可観測性は、例えば破滅的な極限サイクルの形で、学習結果の悪化を引き起こす可能性があることもわかっています。
論文 参考訳(メタデータ) (2021-09-15T12:50:58Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。