論文の概要: Catastrophic Interference is Mitigated in Naturalistic Power-Law
Learning Environments
- arxiv url: http://arxiv.org/abs/2401.10393v1
- Date: Thu, 18 Jan 2024 22:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 17:35:05.490997
- Title: Catastrophic Interference is Mitigated in Naturalistic Power-Law
Learning Environments
- Title(参考訳): 自然力学習環境におけるカタストロフィック干渉の緩和
- Authors: Atith Gandhi, Raj Sanjay Shah, Vijay Marupudi, Sashank Varma
- Abstract要約: 自然主義的な環境では、タスクに遭遇する確率は、それが最後に実行された時からその時代の権力者として減少することを示す。
MNISTタスクにおける順列学習という,ドメイン増分タスクに対する新たなリハーサルベースのアプローチについて検討する。
その結果,一般的な正規化手法を用いて訓練したモデルと比較すると,性能は同等か優れていることがわかった。
- 参考スコア(独自算出の注目度): 2.9123921488295768
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural networks often suffer from catastrophic interference (CI): performance
on previously learned tasks drops off significantly when learning a new task.
This contrasts strongly with humans, who can sequentially learn new tasks
without appreciably forgetting previous tasks. Prior work has explored various
techniques for mitigating CI such as regularization, rehearsal, generative
replay, and distillation methods. The current work takes a different approach,
one guided by cognitive science research showing that in naturalistic
environments, the probability of encountering a task decreases as a power-law
of the time since it was last performed. We argue that a realistic evaluation
of techniques for the mitigation of CI should be performed in simulated
naturalistic learning environments. Thus, we evaluate the extent of mitigation
of CI when training simple rehearsal-based methods in power-law environments
similar to the ones humans face. Our work explores this novel rehearsal-based
approach for a domain-incremental task: learning permutations in the MNIST
task. We compare our rehearsal environment with other baselines to show its
efficacy in promoting continual learning. Additionally, we investigate whether
this environment shows forward facilitation, i.e., faster learning of later
tasks. Next, we explore the robustness of our learning environment to the
number of tasks, model size, and amount of data rehearsed after each task.
Notably, our results show that the performance is comparable or superior to
that of models trained using popular regularization methods and also to
rehearsals in non-power-law environments. The benefits of this training
paradigm include simplicity and the lack of a need for extra neural circuitry.
In addition, because our method is orthogonal to other methods, future research
can combine training in power-law environments with other continual learning
mechanisms.
- Abstract(参考訳): ニューラルネットワークは、しばしば破滅的な干渉(ci:catastrophic interference)に苦しむ。
これは、従来のタスクを忘れずに順次新しいタスクを学習できる人間と強く対照的である。
以前の研究は、正規化、リハーサル、生成的リプレイ、蒸留方法など、CIを緩和する様々な手法を探求してきた。
現在の研究は、自然環境において、タスクが最後に実行されてから当時のパワーローとして遭遇する確率が減少することを示す認知科学研究によって導かれる、異なるアプローチを取る。
シミュレーション自然主義学習環境では,CIの緩和のための技術の評価を現実的に行うべきである。
そこで本研究では,人間の顔に類似したパワーロー環境における単純なリハーサルベース手法の訓練において,ciの緩和度を評価する。
本研究は,MNISTタスクにおける順列学習という,ドメイン増分タスクに対する新たなリハーサルベースのアプローチを探求する。
リハーサル環境を他のベースラインと比較し,継続学習の促進に有効性を示す。
さらに,この環境が進行促進,すなわち,後のタスクの学習を高速化するかどうかを検討する。
次に,タスク数,モデルサイズ,各タスク後にリハーサルされたデータ量に対する学習環境の堅牢性について検討する。
特に,本研究の結果は,一般的な正規化手法を用いて訓練したモデルと同等か,あるいは同等であることを示す。
このトレーニングパラダイムの利点は、単純さと追加の神経回路の必要性の欠如である。
また,本手法は他の手法と直交するので,今後の研究は,パワーロー環境におけるトレーニングと他の連続学習機構を組み合わせることができる。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Discovering Minimal Reinforcement Learning Environments [24.6408931194983]
強化学習(RL)エージェントは、通常、同じ環境で訓練され、評価される。
人間は試験を受ける前に本を勉強するなど、評価される前に専門的な環境で訓練することが多い。
論文 参考訳(メタデータ) (2024-06-18T13:19:26Z) - Decoding Neural Activity to Assess Individual Latent State in
Ecologically Valid Contexts [1.1059590443280727]
2つの高度に制御された実験室のパラダイムからのデータを用いて、2つの異なるドメイン一般化モデルを訓練する。
我々は、下層の潜伏状態と関連する神経活動パターンを推定する。
論文 参考訳(メタデータ) (2023-04-18T15:15:00Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Natural continual learning: success is a journey, not (just) a
destination [9.462808515258464]
自然継続学習(NCL)は、重み付け正規化と射影勾配降下を統一する新しい手法である。
提案手法は,RNNにおける連続学習問題に適用した場合,標準重み付け正規化手法とプロジェクションベースアプローチの両方に優れる。
トレーニングされたネットワークは、生体回路の実験的な発見と同様に、新しいタスクが学習されると強く保存されるタスク固有ダイナミクスを進化させる。
論文 参考訳(メタデータ) (2021-06-15T12:24:53Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。