論文の概要: Self-Activating Neural Ensembles for Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.00141v1
- Date: Sat, 31 Dec 2022 07:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 14:08:53.255788
- Title: Self-Activating Neural Ensembles for Continual Reinforcement Learning
- Title(参考訳): 連続強化学習のための自己活性化型ニューラルアンサンブル
- Authors: Sam Powers, Eliot Xing, Abhinav Gupta
- Abstract要約: Self-Activating Neural Ensembles (SANE) は、仮定せずに破滅的な忘れを避けるために設計されたモジュラーアーキテクチャを使用する。
トレーニング中、必要に応じて新しいモジュールが作成され、未使用のモジュールが変更されないように、アクティブなモジュールのみが更新される。
このシステムにより,新しいスキルを育成し,学習しながら,古いスキルを維持し,活用することができる。
- 参考スコア(独自算出の注目度): 23.00149997940467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability for an agent to continuously learn new skills without
catastrophically forgetting existing knowledge is of critical importance for
the development of generally intelligent agents. Most methods devised to
address this problem depend heavily on well-defined task boundaries, and thus
depend on human supervision. Our task-agnostic method, Self-Activating Neural
Ensembles (SANE), uses a modular architecture designed to avoid catastrophic
forgetting without making any such assumptions. At the beginning of each
trajectory, a module in the SANE ensemble is activated to determine the agent's
next policy. During training, new modules are created as needed and only
activated modules are updated to ensure that unused modules remain unchanged.
This system enables our method to retain and leverage old skills, while growing
and learning new ones. We demonstrate our approach on visually rich
procedurally generated environments.
- Abstract(参考訳): エージェントが既存の知識を破滅的に忘れずに新しいスキルを継続的に習得する能力は、一般的に知的なエージェントの開発において重要である。
この問題に対処するために考案されたほとんどの方法は、明確に定義されたタスク境界に大きく依存するので、人間の監督に依存する。
我々のタスク非依存手法である自己活性化ニューラルアンサンブル(SANE)は、そのような仮定をせずに破滅的な忘れを避けるために設計されたモジュラーアーキテクチャを用いている。
各軌道の開始時に、SANEアンサンブル内のモジュールが活性化され、エージェントの次のポリシーが決定される。
トレーニング中、必要に応じて新しいモジュールが作成され、未使用のモジュールが変更されないように、アクティブなモジュールのみが更新される。
このシステムにより,新しいスキルを育成,学習しながら,古いスキルを維持し,活用することができる。
視覚的にリッチなプロセス生成環境に対する我々のアプローチを実証する。
関連論文リスト
- I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。
新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。
我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:51Z) - Neuro-mimetic Task-free Unsupervised Online Learning with Continual
Self-Organizing Maps [56.827895559823126]
自己組織化マップ(英: Self-organizing map、SOM)は、クラスタリングや次元減少によく用いられるニューラルネットワークモデルである。
低メモリ予算下でのオンライン教師なし学習が可能なSOM(連続SOM)の一般化を提案する。
MNIST, Kuzushiji-MNIST, Fashion-MNISTなどのベンチマークでは, ほぼ2倍の精度が得られた。
論文 参考訳(メタデータ) (2024-02-19T19:11:22Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Incremental procedural and sensorimotor learning in cognitive humanoid
robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。
各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。
結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文 参考訳(メタデータ) (2023-04-30T22:51:31Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - The Role of Bio-Inspired Modularity in General Learning [0.0]
汎用知能の1つの目標は、事前学習を上書きすることなく、新しい情報を学ぶことである。
以前の知識をブートストラップすることで、新しいタスクの学習を早めることができる。
モジュール性は、破滅的な忘れとブートストラップの制約なしに学習に固執する、重み付けされた学習方法のソリューションを提供するかもしれない。
論文 参考訳(メタデータ) (2021-09-23T18:45:34Z) - Uncertainty-based Modulation for Lifelong Learning [1.3334365645271111]
本稿では、Stephen Grossberg氏のAdaptive Resonance Theory(Adaptive Resonance Theory)提案に基づき、ヒト脳の神経調節機構にインスパイアされたアルゴリズムを提案する。
具体的には、不確実性の概念に基づいて構築され、継続的な学習を可能にするために一連の神経調節機構を使用している。
我々は,環境やエージェントの行動が学習過程を制約し,指導する閉ループ方式でこれらのシステムを開発する上で重要な役割を実証する。
論文 参考訳(メタデータ) (2020-01-27T14:34:37Z) - A Neural Dirichlet Process Mixture Model for Task-Free Continual
Learning [48.87397222244402]
タスクフリー連続学習のための拡張型アプローチを提案する。
我々のモデルは、識別的タスクと生成的タスクの両方に対してタスクフリー連続学習を成功させる。
論文 参考訳(メタデータ) (2020-01-03T02:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。