論文の概要: Emergent mechanisms for long timescales depend on training curriculum
and affect performance in memory tasks
- arxiv url: http://arxiv.org/abs/2309.12927v1
- Date: Fri, 22 Sep 2023 15:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 14:10:42.751266
- Title: Emergent mechanisms for long timescales depend on training curriculum
and affect performance in memory tasks
- Title(参考訳): 長期学習のための創発的メカニズムは訓練カリキュラムに依存し、記憶タスクのパフォーマンスに影響を及ぼす
- Authors: Sina Khajehabdollahi, Roxana Zeraati, Emmanouil Giannakakis, Tim Jakob
Sch\"afer, Georg Martius, Anna Levina
- Abstract要約: 私たちはRNNに$N$-parityと$N$-delayed Match-to-sampleタスクの解決を依頼します。
どちらのタスクにおいても、RNNはより長い時間スケールでN$を増大させるが、学習目標によって異なるメカニズムを使用する。
この結果から,タスク要求に対する時間スケールの適用により,より複雑な目標の学習が可能になり,RNNの性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 17.27816885271914
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recurrent neural networks (RNNs) in the brain and in silico excel at solving
tasks with intricate temporal dependencies. Long timescales required for
solving such tasks can arise from properties of individual neurons
(single-neuron timescale, $\tau$, e.g., membrane time constant in biological
neurons) or recurrent interactions among them (network-mediated timescale).
However, the contribution of each mechanism for optimally solving
memory-dependent tasks remains poorly understood. Here, we train RNNs to solve
$N$-parity and $N$-delayed match-to-sample tasks with increasing memory
requirements controlled by $N$ by simultaneously optimizing recurrent weights
and $\tau$s. We find that for both tasks RNNs develop longer timescales with
increasing $N$, but depending on the learning objective, they use different
mechanisms. Two distinct curricula define learning objectives: sequential
learning of a single-$N$ (single-head) or simultaneous learning of multiple
$N$s (multi-head). Single-head networks increase their $\tau$ with $N$ and are
able to solve tasks for large $N$, but they suffer from catastrophic
forgetting. However, multi-head networks, which are explicitly required to hold
multiple concurrent memories, keep $\tau$ constant and develop longer
timescales through recurrent connectivity. Moreover, we show that the
multi-head curriculum increases training speed and network stability to
ablations and perturbations, and allows RNNs to generalize better to tasks
beyond their training regime. This curriculum also significantly improves
training GRUs and LSTMs for large-$N$ tasks. Our results suggest that adapting
timescales to task requirements via recurrent interactions allows learning more
complex objectives and improves the RNN's performance.
- Abstract(参考訳): 脳とシリコのリカレントニューラルネットワーク(recurrent neural networks, rnns)は、時間的依存性を持つ複雑なタスクの解決に優れている。
このような課題を解決するのに必要な長い時間スケールは、個々のニューロンの特性(単一ニューロンの時間スケール、例えば生物学的ニューロンの膜時間定数など)や、それらの間の反復的な相互作用(ネットワーク経由の時間スケール)から生じる。
しかし、メモリ依存タスクを最適に解くための各メカニズムの貢献は、まだ理解されていない。
ここで、rnnをトレーニングして、リカレントウェイトと$\tau$sを同時に最適化することで、n$で制御されるメモリ要件の増加による、n$-parityとn$-delayed match-to-sampleタスクを解決する。
どちらのタスクにおいても、RNNはより長い時間スケールでN$を増大させるが、学習目標によって異なるメカニズムを使用する。
2つの異なるカリキュラムは学習目標を定義する: 単一のN$(シングルヘッド)の逐次学習または複数のN$(マルチヘッド)の同時学習。
シングルヘッドネットワークは、$n$で$\tau$を増加させ、大きな$n$でタスクを解決できるが、壊滅的な忘れに苦しむ。
しかし、複数の同時メモリを明示的に保持するために要求されるマルチヘッドネットワークは、$\tau$を一定に保ち、繰り返し接続を通じてより長い時間スケールを開発する。
さらに,マルチヘッドカリキュラムは,トレーニング速度とネットワーク安定性を向上し,緩和や摂動に寄与し,RNNがトレーニング体制を超えたタスクにもっと一般化できることを示す。
このカリキュラムは、大規模なN$タスクのためのGRUとLSTMのトレーニングも大幅に改善する。
この結果から,タスク要求に対する時間スケールの適用により,より複雑な目標を学習し,RNNの性能を向上させることが示唆された。
関連論文リスト
- PRF: Parallel Resonate and Fire Neuron for Long Sequence Learning in Spiking Neural Networks [6.545474731089018]
スパイキングニューラルネットワーク(SNN)における長周期学習の効率性と性能の課題を同時に解決する。
まず,典型的なLeaky Integrate-and-Fire(LIF)モデルのトレーニング時間を$O(L2)$から$O(Llog L)$に短縮する。
第二に、長距離依存性を捉えるために、複素領域における微分可能リセット関数から共振機構によって駆動される振動膜電位を利用するパラレル共鳴・火災ニューロン(PRF)を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:51:56Z) - High-Performance Temporal Reversible Spiking Neural Networks with $O(L)$ Training Memory and $O(1)$ Inference Cost [32.44622524827913]
スパイキングニューラルネットワーク(SNN)は、トレーニング中のメモリ要求を増大させ、推論エネルギーコストを増大させる。
本研究では、トレーニングと推論の課題に共同で取り組むために、SNN(T-RevSNN)のための新しい時間的可逆アーキテクチャを提案する。
T-RevSNNはImageNet上で優れた精度を実現し、メモリ効率、トレーニング時間加速度、推論エネルギー効率を大幅に改善することができる。
論文 参考訳(メタデータ) (2024-05-26T07:26:56Z) - On the Computational Complexity and Formal Hierarchy of Second Order
Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN)
有界時間でチューリング完備な RNN のクラスが存在することを証明している。
また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文 参考訳(メタデータ) (2023-09-26T06:06:47Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Towards a General Purpose CNN for Long Range Dependencies in
$\mathrm{N}$D [49.57261544331683]
構造変化のない任意の解像度,次元,長さのタスクに対して,連続的な畳み込みカーネルを備えた単一CNNアーキテクチャを提案する。
1$mathrmD$)とビジュアルデータ(2$mathrmD$)の幅広いタスクに同じCCNNを適用することで、我々のアプローチの汎用性を示す。
私たちのCCNNは競争力があり、検討されたすべてのタスクで現在の最先端を上回ります。
論文 参考訳(メタデータ) (2022-06-07T15:48:02Z) - Tensor train decompositions on recurrent networks [60.334946204107446]
マトリックス製品状態(MPS)テンソルトレインは、ストレージの削減と推論時の計算時間の観点から、MPOよりも魅力的な特徴を持つ。
理論解析により,MPSテンソル列車はLSTMネットワーク圧縮の最前線に置かれるべきであることを示す。
論文 参考訳(メタデータ) (2020-06-09T18:25:39Z) - Learning Various Length Dependence by Dual Recurrent Neural Networks [0.0]
デュアルリカレントニューラルネットワーク(DuRNN)という新しいモデルを提案する。
DuRNNは短期依存を学習し、長期依存を徐々に学習する2つの部分から構成される。
コントリビューションは,1)長期的・短期的依存を個別に学習するための分割・並行的戦略に基づく新たな再帰モデル,2)異なる時間的依存尺度の分離・学習を促進するための選択メカニズムである。
論文 参考訳(メタデータ) (2020-05-28T09:30:01Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z) - Exploring weight initialization, diversity of solutions, and degradation
in recurrent neural networks trained for temporal and decision-making tasks [0.0]
リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)は、脳機能と構造をモデル化するために頻繁に使用される。
本研究では,時間変化刺激による時間・流れ制御タスクを行うために,小型完全接続型RNNを訓練した。
論文 参考訳(メタデータ) (2019-06-03T21:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。