Fugu-MT 論文翻訳(概要): Recurrent neural networks: vanishing and exploding gradients are not the end of the story

論文の概要: Recurrent neural networks: vanishing and exploding gradients are not the end of the story

arxiv url: http://arxiv.org/abs/2405.21064v1
Date: Fri, 31 May 2024 17:53:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 13:09:46.682895
Title: Recurrent neural networks: vanishing and exploding gradients are not the end of the story
Title（参考訳）: リカレントニューラルネットワーク:消滅と爆発の勾配は物語の終わりではない
Authors: Nicolas Zucchet, Antonio Orvieto,
Abstract要約: リカレントニューラルネットワーク(RNN)は長期記憶の学習に苦慮している。状態空間モデル(SSM)の最近の成功は、我々の理論的理解を困難にしている。
参考スコア（独自算出の注目度）: 13.429440202738647
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recurrent neural networks (RNNs) notoriously struggle to learn long-term memories, primarily due to vanishing and exploding gradients. The recent success of state-space models (SSMs), a subclass of RNNs, to overcome such difficulties challenges our theoretical understanding. In this paper, we delve into the optimization challenges of RNNs and discover that, as the memory of a network increases, changes in its parameters result in increasingly large output variations, making gradient-based learning highly sensitive, even without exploding gradients. Our analysis further reveals the importance of the element-wise recurrence design pattern combined with careful parametrizations in mitigating this effect. This feature is present in SSMs, as well as in other architectures, such as LSTMs. Overall, our insights provide a new explanation for some of the difficulties in gradient-based learning of RNNs and why some architectures perform better than others.
Abstract（参考訳）: リカレントニューラルネットワーク(RNN)は、主に消滅と爆発的な勾配のため、長期記憶の学習に苦慮している。 RNNのサブクラスである状態空間モデル(SSM)の最近の成功は、我々の理論的理解の難しさを克服するものである。本稿では、RNNの最適化課題を掘り下げ、ネットワークのメモリが増大するにつれてパラメータの変化が大きくなり、爆発的な勾配を伴わずとも勾配に基づく学習に非常に敏感になることを示す。この効果を緩和するためには,要素単位の繰り返し設計パターンと慎重なパラメトリゼーションが併用されることが重要である。この機能はSSMやLSTMなど他のアーキテクチャにも実装されている。全体として、我々の洞察は、RNNの勾配に基づく学習の難しさと、アーキテクチャが他のアーキテクチャよりも優れている理由について、いくつかの新しい説明を提供する。

関連論文リスト

NN-Former: Rethinking Graph Structure in Neural Architecture Representation [67.3378579108611]
グラフニューラルネットワーク(GNN)とトランスフォーマーは、ニューラルネットワークを表現する上で有望なパフォーマンスを示している。これまでの研究で見過ごされている間、兄弟ノードは中心的であることを示す。我々のアプローチは、精度と遅延予測の両方において、常に有望な性能を達成する。
論文参考訳（メタデータ） (2025-07-01T15:46:18Z)
ASRC-SNN: Adaptive Skip Recurrent Connection Spiking Neural Network [29.337015135181083]
リカレントスパイキングニューラルネットワーク(RSNN)は、長期の時間的モデリングにおいて有望な可能性を示している。本研究では,バニラ再帰構造に代わるSkip Recurrent Connection (SRC)を提案する。 ASRC-SNNは、時間的モデリング能力とロバスト性の観点からSRC-SNNより優れている。
論文参考訳（メタデータ） (2025-05-16T17:10:11Z)
FSTA-SNN:Frequency-based Spatial-Temporal Attention Module for Spiking Neural Networks [6.185559627969663]
ニューラルネットワーク(ANN)の代替としてスパイキングニューラルネットワーク(SNN)が登場本研究では,SNNの固有特性を時間的・空間的両面から解析する。 SNNにおける特徴学習を強化するために,周波数に基づく空間注意モジュール(FSTA)を提案する。
論文参考訳（メタデータ） (2024-12-15T08:23:58Z)
Deep-Unrolling Multidimensional Harmonic Retrieval Algorithms on Neuromorphic Hardware [78.17783007774295]
本稿では,高精度かつエネルギー効率の高い単発多次元高調波検索のための変換に基づくニューロモルフィックアルゴリズムの可能性について検討する。複雑な値の畳み込み層と活性化をスパイクニューラルネットワーク(SNN)に変換する新しい手法を開発した。変換されたSNNは、元のCNNに比べて性能が低下し、ほぼ5倍の電力効率を実現している。
論文参考訳（メタデータ） (2024-12-05T09:41:33Z)
Deeper or Wider: A Perspective from Optimal Generalization Error with Sobolev Loss [2.07180164747172]
より深いニューラルネットワーク(DeNN)と、柔軟な数のレイヤと、限られた隠れたレイヤを持つより広いニューラルネットワーク(WeNN)を比較します。より多くのパラメータがWeNNを好む傾向にあるのに対し、サンプルポイントの増加と損失関数の規則性の向上は、DeNNの採用に傾いている。
論文参考訳（メタデータ） (2024-01-31T20:10:10Z)
Pursing the Sparse Limitation of Spiking Deep Learning Structures [42.334835610250714]
スパイキングニューラルネットワーク(SNN)はその優れた計算とエネルギー効率のために注目を集めている。重量とパッチレベルの当選チケットを同時に識別できる革新的なアルゴリズムを提案する。我々は, モデル構造が極めて疎い場合でも, スパイキング抽選券が同等あるいは優れた性能を達成できることを実証した。
論文参考訳（メタデータ） (2023-11-18T17:00:40Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文参考訳（メタデータ） (2023-03-05T17:57:33Z)
Knowledge Enhanced Neural Networks for relational domains [83.9217787335878]
我々は、ニューラルネットワークに事前論理的知識を注入するニューラルネットワークアーキテクチャであるKENNに焦点を当てる。本稿では,関係データに対するKENNの拡張を提案する。
論文参考訳（メタデータ） (2022-05-31T13:00:34Z)
Deep Architecture Connectivity Matters for Its Convergence: A Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文参考訳（メタデータ） (2022-05-11T17:43:54Z)
Training High-Performance Low-Latency Spiking Neural Networks by Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。非分化性のため、SNNを効率的に訓練することは困難である。本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文参考訳（メタデータ） (2022-05-01T12:44:49Z)
Reducing Catastrophic Forgetting in Self Organizing Maps with Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文参考訳（メタデータ） (2021-12-09T07:11:14Z)
Wide Neural Networks Forget Less Catastrophically [39.907197907411266]
ニューラルネットワークアーキテクチャの"幅"が破滅的忘れに及ぼす影響について検討する。ネットワークの学習力学を様々な観点から研究する。
論文参考訳（メタデータ） (2021-10-21T23:49:23Z)
UnICORNN: A recurrent model for learning very long time dependencies [0.0]
2次常微分方程式のハミルトン系の離散性を保つ構造に基づく新しいRNNアーキテクチャを提案する。結果として得られるrnnは高速で可逆(時間)で、メモリ効率が良く、隠れた状態勾配の厳密な境界を導出して、爆発と消滅の勾配問題の緩和を証明する。
論文参考訳（メタデータ） (2021-03-09T15:19:59Z)
Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文参考訳（メタデータ） (2020-07-03T01:37:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。