論文の概要: Neuro-Inspired Fragmentation and Recall to Overcome Catastrophic
Forgetting in Curiosity
- arxiv url: http://arxiv.org/abs/2310.17537v1
- Date: Thu, 26 Oct 2023 16:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:06:08.300217
- Title: Neuro-Inspired Fragmentation and Recall to Overcome Catastrophic
Forgetting in Curiosity
- Title(参考訳): 好奇心における神経刺激によるフラグメンテーションと破砕の克服
- Authors: Jaedong Hwang, Zhang-Wei Hong, Eric Chen, Akhilan Boopathy, Pulkit
Agrawal, Ila Fiete
- Abstract要約: 深層強化学習法は様々なタスクにおいて顕著な性能を示すが,広い環境下での探索に苦戦している。
予測に基づく本質的な報酬は、エージェントがハードな探索タスクを解くのに役立つが、それらは破滅的な忘れに苦しむ可能性がある。
本研究では,人間と動物の学習方法に触発された新しい手法FARCuriosityを提案する。
- 参考スコア(独自算出の注目度): 31.396929282048916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning methods exhibit impressive performance on a range
of tasks but still struggle on hard exploration tasks in large environments
with sparse rewards. To address this, intrinsic rewards can be generated using
forward model prediction errors that decrease as the environment becomes known,
and incentivize an agent to explore novel states. While prediction-based
intrinsic rewards can help agents solve hard exploration tasks, they can suffer
from catastrophic forgetting and actually increase at visited states. We first
examine the conditions and causes of catastrophic forgetting in grid world
environments. We then propose a new method FARCuriosity, inspired by how humans
and animals learn. The method depends on fragmentation and recall: an agent
fragments an environment based on surprisal, and uses different local curiosity
modules (prediction-based intrinsic reward functions) for each fragment so that
modules are not trained on the entire environment. At each fragmentation event,
the agent stores the current module in long-term memory (LTM) and either
initializes a new module or recalls a previously stored module based on its
match with the current state. With fragmentation and recall, FARCuriosity
achieves less forgetting and better overall performance in games with varied
and heterogeneous environments in the Atari benchmark suite of tasks. Thus,
this work highlights the problem of catastrophic forgetting in prediction-based
curiosity methods and proposes a solution.
- Abstract(参考訳): 深層強化学習手法は様々なタスクで印象的なパフォーマンスを示すが、大きな環境での難解な探索作業にはまだ乏しい報酬がある。
これに対処するために、環境が知られるにつれて減少する前方モデル予測誤差を用いて内在的な報酬を生成し、エージェントに新しい状態を探索するインセンティブを与えることができる。
予測に基づく内在的な報酬は、エージェントが難しい探索タスクを解決するのに役立ちますが、彼らは壊滅的な忘れに苦しみ、実際に訪問した状態で増加します。
まず,グリッド環境における破滅的忘れの状況と原因について検討する。
次に,人間と動物がどのように学習するかに着想を得た新しい手法を提案する。
エージェントは前提に基づいて環境をフラグメントし、各フラグメントに対して異なる局所好奇性モジュール(予測に基づく固有報酬関数)を使用して、モジュールが環境全体に基づいてトレーニングされないようにする。
各フラグメンテーションイベントにおいて、エージェントは、現在のモジュールを長期記憶(LTM)に格納し、新しいモジュールを初期化するか、現在の状態と一致して以前に保存されたモジュールをリコールする。
フラグメンテーションとリコールにより、FARCuriosityはAtariベンチマークスイートの様々な異種環境を持つゲームにおいて、忘れられにくく、全体的なパフォーマンスが向上する。
そこで本研究では,予測に基づく好奇心法における破滅的忘れの問題を強調し,その解決法を提案する。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Exploration via Elliptical Episodic Bonuses [22.404871878551354]
連続状態空間にカウントベースのエピソードボーナスを拡張する新しい方法であるE3B(Episodic Bonuses)による探索を導入する。
提案手法は,タスク固有の帰納バイアスを必要とせずに,MiniHackスイートから16の課題にまたがる新しい最先端のタスクを設定する。
E3Bはまた、スパース報酬、ピクセルベースのVizDoom環境に関する既存の手法と一致し、Habitatでの報酬のない探索において、既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-11T22:10:23Z) - CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation [118.18977078626776]
イベントセグメンテーション/バウンダリ検出のためのエンドツーエンドの自己教師型学習フレームワークを提案する。
本フレームワークは, イベント境界を再構成誤差で検出するトランスフォーマーに基づく特徴再構成手法を利用する。
私たちの研究の目標は、特定のイベントをローカライズするのではなく、ジェネリックイベントをセグメント化することです。
論文 参考訳(メタデータ) (2021-09-30T14:40:32Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - Rank the Episodes: A Simple Approach for Exploration in
Procedurally-Generated Environments [66.80667987347151]
固有の報酬に基づく方法は、しばしば手続き的に生成された環境で不足する。
RAPIDは、手続き的に生成された環境のためのシンプルで効果的なエピソードレベルの探索方法です。
そこで本手法は,MiniGrid環境,MiniWorldの3D Mazeナビゲーションタスク,MuJoCoタスクのスパースについて実証した。
論文 参考訳(メタデータ) (2021-01-20T14:22:01Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。