論文の概要: Evolutionary Reinforcement Learning Dynamics with Irreducible
Environmental Uncertainty
- arxiv url: http://arxiv.org/abs/2109.07259v1
- Date: Wed, 15 Sep 2021 12:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:09:04.346827
- Title: Evolutionary Reinforcement Learning Dynamics with Irreducible
Environmental Uncertainty
- Title(参考訳): 環境不確実性を考慮した進化的強化学習ダイナミクス
- Authors: Wolfram Barfuss and Richard P. Mann
- Abstract要約: 我々は,エージェントが環境の現状について絶対的に不確実である進化的強化学習ダイナミクスを導出し,現在に至る。
予測不可能な環境不確実性は、学習結果をより速くし、学習プロセスを安定させ、社会的ジレンマを克服する。
しかし、部分的な可観測性は、例えば破滅的な極限サイクルの形で、学習結果の悪化を引き起こす可能性があることもわかっています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we derive and present evolutionary reinforcement learning
dynamics in which the agents are irreducibly uncertain about the current state
of the environment. We evaluate the dynamics across different classes of
partially observable agent-environment systems and find that irreducible
environmental uncertainty can lead to better learning outcomes faster,
stabilize the learning process and overcome social dilemmas. However, as
expected, we do also find that partial observability may cause worse learning
outcomes, for example, in the form of a catastrophic limit cycle. Compared to
fully observant agents, learning with irreducible environmental uncertainty
often requires more exploration and less weight on future rewards to obtain the
best learning outcomes. Furthermore, we find a range of dynamical effects
induced by partial observability, e.g., a critical slowing down of the learning
processes between reward regimes and the separation of the learning dynamics
into fast and slow directions. The presented dynamics are a practical tool for
researchers in biology, social science and machine learning to systematically
investigate the evolutionary effects of environmental uncertainty.
- Abstract(参考訳): 本研究は, エージェントが環境の現状について絶対的に不確実である進化的強化学習ダイナミクスを導出し, 提示する。
エージェント・環境システムの異なるクラス間のダイナミクスを評価し,既約環境の不確実性が学習結果の迅速化,学習過程の安定化,社会的ジレンマの克服につながることを見出した。
しかし、予想通り、部分的可観測性は、例えば破滅的なリミットサイクルの形で、学習結果の悪化を引き起こす可能性があることもわかりました。
完全に観察可能なエージェントと比較して、既約な環境不確実性を持つ学習は、最良の学習結果を得るためには、より多くの探索と将来の報酬への重みをしばしば必要とします。
さらに,部分的可観測性によって引き起こされる様々な動的効果,例えば,報酬レジームと学習ダイナミクスの高速かつ遅い方向への分離の間の学習プロセスの臨界的なスローダウンを見出した。
提示されたダイナミクスは、環境不確実性の進化的影響を体系的に研究する生物学、社会科学、機械学習の研究者にとって実践的なツールである。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Network bottlenecks and task structure control the evolution of interpretable learning rules in a foraging agent [0.0]
我々は, メタラーニングを, 単純な報酬変調型可塑性規則の進化的最適化により研究した。
制約のないメタラーニングが多様な可塑性規則の出現につながることを示す。
その結果, 可塑性規則のメタラーニングは様々なパラメータに非常に敏感であり, この感度は生物学的ネットワークで見られる学習規則に反映している可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-20T14:57:02Z) - Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Environment Design for Inverse Reinforcement Learning [3.085995273374333]
一つの環境から学ぶことに集中する現在の逆強化学習法は、環境力学のわずかな変化に対処できない可能性がある。
本フレームワークでは,学習者がエキスパートと繰り返し対話し,前者の選択環境を使って報酬関数を識別する。
その結果,サンプル効率とロバスト性の両方の改善が得られた。
論文 参考訳(メタデータ) (2022-10-26T18:31:17Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Robust Imitation Learning against Variations in Environment Dynamics [17.15933046951096]
本稿では,環境力学が乱れた場合のILの堅牢性を改善するための,堅牢な模倣学習(IL)フレームワークを提案する。
本フレームワークは,サンプル環境における複数の専門家を模倣することにより,様々な動的環境を効果的に扱う。
論文 参考訳(メタデータ) (2022-06-19T03:06:13Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Tracking Emotions: Intrinsic Motivation Grounded on Multi-Level
Prediction Error Dynamics [68.8204255655161]
目標達成に向けての進捗率と期待率の差が生じると、感情がどのように生じるかについて議論する。
自己生成的・動的目標に向けた行動を生成する本質的なモチベーションアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-29T06:53:13Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。