論文の概要: Intrinsic Rewards for Exploration without Harm from Observational Noise: A Simulation Study Based on the Free Energy Principle
- arxiv url: http://arxiv.org/abs/2405.07473v1
- Date: Mon, 13 May 2024 05:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:44:50.737405
- Title: Intrinsic Rewards for Exploration without Harm from Observational Noise: A Simulation Study Based on the Free Energy Principle
- Title(参考訳): 観測騒音によるハームのない探査の本質的リワード:自由エネルギー原理に基づくシミュレーション研究
- Authors: Theodore Jerome Tinker, Kenji Doya, Jun Tani,
- Abstract要約: 強化学習(Reinforcement Learning, RL)では、タスクを実行することで数値報酬を最大化するために、人工エージェントを訓練する。
本稿では, 潜伏変数の予測的事前確率と後続確率とのKL偏差によりエージェントに報酬を与える隠れ状態好奇性を提案する。
- 参考スコア(独自算出の注目度): 3.6985126664461037
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In Reinforcement Learning (RL), artificial agents are trained to maximize numerical rewards by performing tasks. Exploration is essential in RL because agents must discover information before exploiting it. Two rewards encouraging efficient exploration are the entropy of action policy and curiosity for information gain. Entropy is well-established in literature, promoting randomized action selection. Curiosity is defined in a broad variety of ways in literature, promoting discovery of novel experiences. One example, prediction error curiosity, rewards agents for discovering observations they cannot accurately predict. However, such agents may be distracted by unpredictable observational noises known as curiosity traps. Based on the Free Energy Principle (FEP), this paper proposes hidden state curiosity, which rewards agents by the KL divergence between the predictive prior and posterior probabilities of latent variables. We trained six types of agents to navigate mazes: baseline agents without rewards for entropy or curiosity, and agents rewarded for entropy and/or either prediction error curiosity or hidden state curiosity. We find entropy and curiosity result in efficient exploration, especially both employed together. Notably, agents with hidden state curiosity demonstrate resilience against curiosity traps, which hinder agents with prediction error curiosity. This suggests implementing the FEP may enhance the robustness and generalization of RL models, potentially aligning the learning processes of artificial and biological agents.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)では、タスクを実行することで数値報酬を最大化するために、人工エージェントを訓練する。
エージェントは情報を利用する前に情報を発見する必要があるため、RLでは探索が不可欠である。
効率的な探索を促進する2つの報酬は、行動方針のエントロピーと情報獲得の好奇心である。
エントロピーは文学において確立されており、ランダム化された行動選択を促進する。
好奇心は文学において様々な方法で定義され、新しい経験の発見を促進する。
例えば、予測エラー好奇心は、正確に予測できない観察を発見するためにエージェントに報酬を与える。
しかし、そのようなエージェントは好奇心トラップとして知られる予測不可能な観測ノイズに邪魔される可能性がある。
The Free Energy Principle (FEP) に基づいて, 潜伏変数の予測的事前確率と後続確率の間のKL分散によるエージェントの報酬を付与する隠れ状態好奇性を提案する。
迷路をナビゲートするために、6種類のエージェントを訓練した: エントロピーや好奇心の報酬のないベースラインエージェント、エントロピーや/または予測エラー好奇心または隠れ状態好奇心の報酬を受けるエージェント。
エントロピーと好奇心は効率的な探索をもたらす。
特に、隠れた状態好奇心を持つエージェントは好奇心トラップに対するレジリエンスを示し、予測エラー好奇心を持つエージェントを妨げる。
このことは、FEPの実装によってRLモデルの堅牢性と一般化が促進され、人工エージェントと生物学的エージェントの学習プロセスが整合する可能性があることを示唆している。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - DEIR: Efficient and Robust Exploration through
Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。
近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。
条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文 参考訳(メタデータ) (2023-04-21T06:39:38Z) - Curiosity-Driven Multi-Agent Exploration with Mixed Objectives [7.247148291603988]
単エージェント強化学習におけるスパース報酬問題を軽減するために、本質的な報酬がますます利用されてきた。
好奇心駆動探索(英: Curiosity-driven exploration)は、エージェントの好奇心モジュールの予測誤差としてこの新規性を定量化する、単純で効率的なアプローチである。
しかし, この好奇心を駆使して, スパース報酬協調型マルチエージェント環境における探索をガイドする手法は, 常に改善に繋がらないことを示す。
論文 参考訳(メタデータ) (2022-10-29T02:45:38Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Prototyping three key properties of specific curiosity in computational
reinforcement learning [3.1498833540989413]
本稿では,これらの特性の最も即時的な3点を紹介し,概念強化学習エージェントでどのように実装されるかを示す。
希望するように、エージェントは、好奇心を誘発する状況を適応的に求めるために、長期的な嗜好を更新しながら、短期的な指示行動を示す。
この研究は、特定の好奇心がどのように機能し、将来は複雑な環境におけるゴール探索、意思決定エージェントの行動に統合されるかもしれない、という新しい見解を提示する。
論文 参考訳(メタデータ) (2022-05-20T18:58:18Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。