Fugu-MT 論文翻訳(概要): Self-Activating Neural Ensembles for Continual Reinforcement Learning

論文の概要: Self-Activating Neural Ensembles for Continual Reinforcement Learning

arxiv url: http://arxiv.org/abs/2301.00141v1
Date: Sat, 31 Dec 2022 07:11:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 14:08:53.255788
Title: Self-Activating Neural Ensembles for Continual Reinforcement Learning
Title（参考訳）: 連続強化学習のための自己活性化型ニューラルアンサンブル
Authors: Sam Powers, Eliot Xing, Abhinav Gupta
Abstract要約: Self-Activating Neural Ensembles (SANE) は、仮定せずに破滅的な忘れを避けるために設計されたモジュラーアーキテクチャを使用する。トレーニング中、必要に応じて新しいモジュールが作成され、未使用のモジュールが変更されないように、アクティブなモジュールのみが更新される。このシステムにより,新しいスキルを育成し,学習しながら,古いスキルを維持し,活用することができる。
参考スコア（独自算出の注目度）: 23.00149997940467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability for an agent to continuously learn new skills without catastrophically forgetting existing knowledge is of critical importance for the development of generally intelligent agents. Most methods devised to address this problem depend heavily on well-defined task boundaries, and thus depend on human supervision. Our task-agnostic method, Self-Activating Neural Ensembles (SANE), uses a modular architecture designed to avoid catastrophic forgetting without making any such assumptions. At the beginning of each trajectory, a module in the SANE ensemble is activated to determine the agent's next policy. During training, new modules are created as needed and only activated modules are updated to ensure that unused modules remain unchanged. This system enables our method to retain and leverage old skills, while growing and learning new ones. We demonstrate our approach on visually rich procedurally generated environments.
Abstract（参考訳）: エージェントが既存の知識を破滅的に忘れずに新しいスキルを継続的に習得する能力は、一般的に知的なエージェントの開発において重要である。この問題に対処するために考案されたほとんどの方法は、明確に定義されたタスク境界に大きく依存するので、人間の監督に依存する。我々のタスク非依存手法である自己活性化ニューラルアンサンブル(SANE)は、そのような仮定をせずに破滅的な忘れを避けるために設計されたモジュラーアーキテクチャを用いている。各軌道の開始時に、SANEアンサンブル内のモジュールが活性化され、エージェントの次のポリシーが決定される。トレーニング中、必要に応じて新しいモジュールが作成され、未使用のモジュールが変更されないように、アクティブなモジュールのみが更新される。このシステムにより,新しいスキルを育成,学習しながら,古いスキルを維持し,活用することができる。視覚的にリッチなプロセス生成環境に対する我々のアプローチを実証する。

関連論文リスト

Lifelong Learning of Large Language Model based Agents: A Roadmap [39.01532420650279]
連続的・漸進的な学習として知られる生涯学習は、人工知能(AGI)を前進させる重要な要素であるこの調査は、生涯学習を大規模言語モデル(LLM)に組み込むための潜在的テクニックを体系的にまとめる最初のものである。これらの柱が集合的に連続的な適応を可能にし、破滅的な忘れを軽減し、長期的なパフォーマンスを向上させる方法について強調する。
論文参考訳（メタデータ） (2025-01-13T12:42:04Z)
I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文参考訳（メタデータ） (2024-06-14T08:44:51Z)
Neuro-mimetic Task-free Unsupervised Online Learning with Continual Self-Organizing Maps [56.827895559823126]
自己組織化マップ(英: Self-organizing map、SOM)は、クラスタリングや次元減少によく用いられるニューラルネットワークモデルである。低メモリ予算下でのオンライン教師なし学習が可能なSOM(連続SOM)の一般化を提案する。 MNIST, Kuzushiji-MNIST, Fashion-MNISTなどのベンチマークでは, ほぼ2倍の精度が得られた。
論文参考訳（メタデータ） (2024-02-19T19:11:22Z)
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文参考訳（メタデータ） (2023-12-22T17:57:57Z)
Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:10:51Z)
Incremental procedural and sensorimotor learning in cognitive humanoid robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文参考訳（メタデータ） (2023-04-30T22:51:31Z)
Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文参考訳（メタデータ） (2023-02-22T18:11:25Z)
The Role of Bio-Inspired Modularity in General Learning [0.0]
汎用知能の1つの目標は、事前学習を上書きすることなく、新しい情報を学ぶことである。以前の知識をブートストラップすることで、新しいタスクの学習を早めることができる。モジュール性は、破滅的な忘れとブートストラップの制約なしに学習に固執する、重み付けされた学習方法のソリューションを提供するかもしれない。
論文参考訳（メタデータ） (2021-09-23T18:45:34Z)
Uncertainty-based Modulation for Lifelong Learning [1.3334365645271111]
本稿では、Stephen Grossberg氏のAdaptive Resonance Theory(Adaptive Resonance Theory)提案に基づき、ヒト脳の神経調節機構にインスパイアされたアルゴリズムを提案する。具体的には、不確実性の概念に基づいて構築され、継続的な学習を可能にするために一連の神経調節機構を使用している。我々は,環境やエージェントの行動が学習過程を制約し,指導する閉ループ方式でこれらのシステムを開発する上で重要な役割を実証する。
論文参考訳（メタデータ） (2020-01-27T14:34:37Z)
A Neural Dirichlet Process Mixture Model for Task-Free Continual Learning [48.87397222244402]
タスクフリー連続学習のための拡張型アプローチを提案する。我々のモデルは、識別的タスクと生成的タスクの両方に対してタスクフリー連続学習を成功させる。
論文参考訳（メタデータ） (2020-01-03T02:07:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。