論文の概要: Exploring through Random Curiosity with General Value Functions
- arxiv url: http://arxiv.org/abs/2211.10282v1
- Date: Fri, 18 Nov 2022 15:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:26:21.678775
- Title: Exploring through Random Curiosity with General Value Functions
- Title(参考訳): 一般値関数によるランダム好奇心の探索
- Authors: Aditya Ramesh, Louis Kirsch, Sjoerd van Steenkiste, J\"urgen
Schmidhuber
- Abstract要約: 本稿では,新しい固有報酬関数として一般値関数(RC-GVF)を用いたランダム好奇性を提案する。
RC-GVFは時間的に拡張された一般値関数を予測することによって固有報酬を導出する。
これは、部分的に観測可能なMiniGrid環境において、地絡エピソード数の欠如により、従来の方法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 19.338907832254822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient exploration in reinforcement learning is a challenging problem
commonly addressed through intrinsic rewards. Recent prominent approaches are
based on state novelty or variants of artificial curiosity. However, directly
applying them to partially observable environments can be ineffective and lead
to premature dissipation of intrinsic rewards. Here we propose random curiosity
with general value functions (RC-GVF), a novel intrinsic reward function that
draws upon connections between these distinct approaches. Instead of using only
the current observation's novelty or a curiosity bonus for failing to predict
precise environment dynamics, RC-GVF derives intrinsic rewards through
predicting temporally extended general value functions. We demonstrate that
this improves exploration in a hard-exploration diabolical lock problem.
Furthermore, RC-GVF significantly outperforms previous methods in the absence
of ground-truth episodic counts in the partially observable MiniGrid
environments. Panoramic observations on MiniGrid further boost RC-GVF's
performance such that it is competitive to baselines exploiting privileged
information in form of episodic counts.
- Abstract(参考訳): 強化学習における効率的な探索は、内在的な報酬を通じて一般的に対処される課題である。
最近の顕著なアプローチは、ステートノベルティや人工好奇心の変種に基づいている。
しかし、これらを部分的に観察可能な環境に直接適用することは効果が無く、本質的な報酬の早期散逸につながる可能性がある。
本稿では、これらの異なるアプローチ間の接続を生かした固有報酬関数である一般値関数(RC-GVF)を用いたランダム好奇性を提案する。
RC-GVFは、現在の観測の新規性や好奇心のボーナスのみを使用して、正確な環境力学を予測できない代わりに、時間的に拡張された一般値関数を予測することによって本質的な報酬を導出する。
硬いダイボリックロック問題における探索を改善できることを実証する。
さらに, RC-GVFは, 部分的に観測可能なミニグリッド環境において, 地絡エピソード数の欠如により, 従来の手法よりも有意に優れていた。
MiniGridのパノラマ観測によりRC-GVFの性能はさらに向上し、エピソディックカウントの形で特権情報を活用することの基盤となる。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - DEIR: Efficient and Robust Exploration through
Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。
近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。
条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文 参考訳(メタデータ) (2023-04-21T06:39:38Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。