論文の概要: Self-Activating Neural Ensembles for Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.00141v1
- Date: Sat, 31 Dec 2022 07:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 14:08:53.255788
- Title: Self-Activating Neural Ensembles for Continual Reinforcement Learning
- Title(参考訳): 連続強化学習のための自己活性化型ニューラルアンサンブル
- Authors: Sam Powers, Eliot Xing, Abhinav Gupta
- Abstract要約: Self-Activating Neural Ensembles (SANE) は、仮定せずに破滅的な忘れを避けるために設計されたモジュラーアーキテクチャを使用する。
トレーニング中、必要に応じて新しいモジュールが作成され、未使用のモジュールが変更されないように、アクティブなモジュールのみが更新される。
このシステムにより,新しいスキルを育成し,学習しながら,古いスキルを維持し,活用することができる。
- 参考スコア(独自算出の注目度): 23.00149997940467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability for an agent to continuously learn new skills without
catastrophically forgetting existing knowledge is of critical importance for
the development of generally intelligent agents. Most methods devised to
address this problem depend heavily on well-defined task boundaries, and thus
depend on human supervision. Our task-agnostic method, Self-Activating Neural
Ensembles (SANE), uses a modular architecture designed to avoid catastrophic
forgetting without making any such assumptions. At the beginning of each
trajectory, a module in the SANE ensemble is activated to determine the agent's
next policy. During training, new modules are created as needed and only
activated modules are updated to ensure that unused modules remain unchanged.
This system enables our method to retain and leverage old skills, while growing
and learning new ones. We demonstrate our approach on visually rich
procedurally generated environments.
- Abstract(参考訳): エージェントが既存の知識を破滅的に忘れずに新しいスキルを継続的に習得する能力は、一般的に知的なエージェントの開発において重要である。
この問題に対処するために考案されたほとんどの方法は、明確に定義されたタスク境界に大きく依存するので、人間の監督に依存する。
我々のタスク非依存手法である自己活性化ニューラルアンサンブル(SANE)は、そのような仮定をせずに破滅的な忘れを避けるために設計されたモジュラーアーキテクチャを用いている。
各軌道の開始時に、SANEアンサンブル内のモジュールが活性化され、エージェントの次のポリシーが決定される。
トレーニング中、必要に応じて新しいモジュールが作成され、未使用のモジュールが変更されないように、アクティブなモジュールのみが更新される。
このシステムにより,新しいスキルを育成,学習しながら,古いスキルを維持し,活用することができる。
視覚的にリッチなプロセス生成環境に対する我々のアプローチを実証する。
関連論文リスト
- Lifelong Learning of Large Language Model based Agents: A Roadmap [39.01532420650279]
連続的・漸進的な学習として知られる生涯学習は、人工知能(AGI)を前進させる重要な要素である
この調査は、生涯学習を大規模言語モデル(LLM)に組み込むための潜在的テクニックを体系的にまとめる最初のものである。
これらの柱が集合的に連続的な適応を可能にし、破滅的な忘れを軽減し、長期的なパフォーマンスを向上させる方法について強調する。
論文 参考訳(メタデータ) (2025-01-13T12:42:04Z) - Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning [19.463863037999054]
自律型ロボット工学やビデオゲームシミュレーションのような動的ドメインでは、エージェントは、以前獲得したスキルを維持しながら、新しいタスクに継続的に適応する必要がある。
継続的強化学習(Continuous Reinforcement Learning)として知られるこの継続的なプロセスは、過去の知識を忘れるリスクを含む重要な課題を提示します。
オフラインナビゲーション設定における連続学習を目的とした新しいフレームワークであるHILOW(HIerarchical LOW-rank Subspaces of Policies)を紹介する。
論文 参考訳(メタデータ) (2024-12-19T14:00:03Z) - I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。
新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。
我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:51Z) - Neuro-mimetic Task-free Unsupervised Online Learning with Continual
Self-Organizing Maps [56.827895559823126]
自己組織化マップ(英: Self-organizing map、SOM)は、クラスタリングや次元減少によく用いられるニューラルネットワークモデルである。
低メモリ予算下でのオンライン教師なし学習が可能なSOM(連続SOM)の一般化を提案する。
MNIST, Kuzushiji-MNIST, Fashion-MNISTなどのベンチマークでは, ほぼ2倍の精度が得られた。
論文 参考訳(メタデータ) (2024-02-19T19:11:22Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Incremental procedural and sensorimotor learning in cognitive humanoid
robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。
各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。
結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文 参考訳(メタデータ) (2023-04-30T22:51:31Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - The Role of Bio-Inspired Modularity in General Learning [0.0]
汎用知能の1つの目標は、事前学習を上書きすることなく、新しい情報を学ぶことである。
以前の知識をブートストラップすることで、新しいタスクの学習を早めることができる。
モジュール性は、破滅的な忘れとブートストラップの制約なしに学習に固執する、重み付けされた学習方法のソリューションを提供するかもしれない。
論文 参考訳(メタデータ) (2021-09-23T18:45:34Z) - A Neural Dirichlet Process Mixture Model for Task-Free Continual
Learning [48.87397222244402]
タスクフリー連続学習のための拡張型アプローチを提案する。
我々のモデルは、識別的タスクと生成的タスクの両方に対してタスクフリー連続学習を成功させる。
論文 参考訳(メタデータ) (2020-01-03T02:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。