論文の概要: Dynamic Memory-based Curiosity: A Bootstrap Approach for Exploration
- arxiv url: http://arxiv.org/abs/2208.11349v2
- Date: Mon, 20 Nov 2023 02:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 21:01:24.422601
- Title: Dynamic Memory-based Curiosity: A Bootstrap Approach for Exploration
- Title(参考訳): 動的メモリベースの好奇心:探索のためのブートストラップアプローチ
- Authors: Zijian Gao, YiYing Li, Kele Xu, Yuanzhao Zhai, Dawei Feng, Bo Ding,
XinJun Mao, Huaimin Wang
- Abstract要約: DyMeCuは動的メモリベースの好奇心を表す。
人間の好奇心と情報理論にインスパイアされたDyMeCuは、動的メモリと双対オンライン学習者で構成される。
- 参考スコア(独自算出の注目度): 18.709389874201115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sparsity of extrinsic rewards poses a serious challenge for reinforcement
learning (RL). Currently, many efforts have been made on curiosity which can
provide a representative intrinsic reward for effective exploration. However,
the challenge is still far from being solved. In this paper, we present a novel
curiosity for RL, named DyMeCu, which stands for Dynamic Memory-based
Curiosity. Inspired by human curiosity and information theory, DyMeCu consists
of a dynamic memory and dual online learners. The curiosity arouses if
memorized information can not deal with the current state, and the information
gap between dual learners can be formulated as the intrinsic reward for agents,
and then such state information can be consolidated into the dynamic memory.
Compared with previous curiosity methods, DyMeCu can better mimic human
curiosity with dynamic memory, and the memory module can be dynamically grown
based on a bootstrap paradigm with dual learners. On multiple benchmarks
including DeepMind Control Suite and Atari Suite, large-scale empirical
experiments are conducted and the results demonstrate that DyMeCu outperforms
competitive curiosity-based methods with or without extrinsic rewards. We will
release the code to enhance reproducibility.
- Abstract(参考訳): 極端な報酬のスパース性は、強化学習(rl)に深刻な挑戦をもたらす。
現在では、効果的な探索のための代表的な本質的な報酬を提供する好奇心に多くの取り組みがなされている。
しかし、課題はまだ解決されていない。
本稿では,動的記憶に基づく好奇心を表すdymecuという,rlの新たな好奇心について述べる。
人間の好奇心と情報理論に触発されたDyMeCuは、動的メモリと双対オンライン学習者で構成される。
好奇心は、記憶された情報が現在の状態に対処できないことを喚起し、二重学習者間の情報ギャップをエージェント固有の報酬として定式化し、そのような状態情報を動的メモリに統合することができる。
従来のキュリオシティ手法と比較して、dymecuは人間の好奇心を動的メモリで模倣し、メモリモジュールは二重学習者によるブートストラップパラダイムに基づいて動的に成長させることができる。
DeepMind Control Suite や Atari Suite などの複数のベンチマークにおいて,DyMeCu は外因性報酬の有無で競合好奇性に基づく手法より優れていることを示す。
再現性を高めるためにコードを公開します。
関連論文リスト
- Beyond Memorization: The Challenge of Random Memory Access in Language Models [56.525691003233554]
生成言語モデル(LM)がそのメモリに逐次的またはランダムにアクセスできるかどうかを検討する。
本手法により, LMのランダムメモリアクセス性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-12T16:42:44Z) - METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。
潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。
複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2023-10-13T06:43:11Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Two-Memory Reinforcement Learning [7.021281655855703]
エピソード記憶と強化学習には、それぞれ独自の長所と短所がある。
本稿では,2次元記憶と強化学習を組み合わせた2次元記憶強化学習エージェント (2M) を提案する。
実験により,2Mエージェントはよりデータ効率が高く,純粋なエピソード記憶と純粋な強化学習の両方に優れることが示された。
論文 参考訳(メタデータ) (2023-04-20T05:39:25Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - Learning a Visually Grounded Memory Assistant [3.808063547958558]
我々は、人間の記憶と援助の大規模な収集のための新しいインタフェースを導入する。
3D Matterportシミュレーターを使用して、特定の具体的メモリタスクを人々に実行させる現実的な屋内環境を作成する。
このインターフェースはAmazon Mechanical Turkにデプロイされ、人間のメモリのテストと記録が可能になりました。
論文 参考訳(メタデータ) (2022-10-07T19:19:01Z) - From Psychological Curiosity to Artificial Curiosity: Curiosity-Driven
Learning in Artificial Intelligence Tasks [56.20123080771364]
心理学的好奇心は、探索と情報取得を通じて学習を強化するために、人間の知性において重要な役割を果たす。
人工知能(AI)コミュニティでは、人工好奇心は効率的な学習に自然な本質的な動機を与える。
CDLはますます人気を博し、エージェントは新たな知識を学習するために自己動機付けされている。
論文 参考訳(メタデータ) (2022-01-20T17:07:03Z) - Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。
セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。
アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文 参考訳(メタデータ) (2020-10-20T15:05:26Z) - See, Hear, Explore: Curiosity via Audio-Visual Association [46.86865495827888]
好奇心駆動探索の一般的な定式化は、学習モデルによって予測される現実と未来の違いを使用する。
本稿では,異なる感覚の新たな関連性に報いる新たな好奇心について紹介する。
我々のアプローチは、より効率的な探索のためのより強力な信号を提供するために、複数のモダリティを利用する。
論文 参考訳(メタデータ) (2020-07-07T17:56:35Z) - MEMO: A Deep Network for Flexible Combination of Episodic Memories [16.362284088767456]
MEMOは長い距離で推論できる能力を備えたアーキテクチャである。
まず、外部メモリに格納されたメモリと、これらの事実を外部メモリに格納するアイテムを分離する。
第二に、適応的な検索機構を利用し、応答が生成される前に「メモリホップ」の変動数を許容する。
論文 参考訳(メタデータ) (2020-01-29T15:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。