論文の概要: Exploring the Long-Term Generalization of Counting Behavior in RNNs
- arxiv url: http://arxiv.org/abs/2211.16429v1
- Date: Tue, 29 Nov 2022 17:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 14:53:13.964427
- Title: Exploring the Long-Term Generalization of Counting Behavior in RNNs
- Title(参考訳): RNNにおけるカウント行動の長期的一般化の探索
- Authors: Nadine El-Naggar, Pranava Madhyastha, Tillman Weyde
- Abstract要約: 本稿では,LSTM,ReLU,GRUモデルの長い列上のタスク数に対する一般化について検討する。
LSTMにおける活性化関数の飽和と、ReLUizablesがカウント動作を一般化するための適切な重み設定は、標準トレーニングレギュラーでは達成されない。
- 参考スコア(独自算出の注目度): 11.754328280233628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we investigate the generalization of LSTM, ReLU and GRU models
on counting tasks over long sequences. Previous theoretical work has
established that RNNs with ReLU activation and LSTMs have the capacity for
counting with suitable configuration, while GRUs have limitations that prevent
correct counting over longer sequences. Despite this and some positive
empirical results for LSTMs on Dyck-1 languages, our experimental results show
that LSTMs fail to learn correct counting behavior for sequences that are
significantly longer than in the training data. ReLUs show much larger variance
in behavior and in most cases worse generalization. The long sequence
generalization is empirically related to validation loss, but reliable long
sequence generalization seems not practically achievable through
backpropagation with current techniques. We demonstrate different failure modes
for LSTMs, GRUs and ReLUs. In particular, we observe that the saturation of
activation functions in LSTMs and the correct weight setting for ReLUs to
generalize counting behavior are not achieved in standard training regimens. In
summary, learning generalizable counting behavior is still an open problem and
we discuss potential approaches for further research.
- Abstract(参考訳): 本研究では,LSTM,ReLU,GRUモデルの長い列上のタスク数に対する一般化について検討する。
これまでの理論的研究により、ReLUアクティベートされたRNNとLSTMは適切な構成でカウントできる能力を持つのに対し、GRUは長いシーケンスの正しいカウントを防ぐ制限があることがわかった。
これとDyck-1言語上でのLSTMの実証的な結果にもかかわらず、実験の結果、LSTMはトレーニングデータよりもかなり長いシーケンスの正確なカウント動作を学習できないことがわかった。
ReLUは挙動のばらつきが大きく、ほとんどの場合、より悪い一般化を示す。
ロングシーケンスの一般化は検証損失と経験的関係があるが、信頼性の高いロングシーケンスの一般化は、現在の手法によるバックプロパゲーションによって実現不可能に思える。
LSTM, GRU, ReLUの異なる障害モードを示す。
特に、LSTMにおける活性化関数の飽和と、ReLUがカウント動作を一般化するための正しい重み設定は、標準訓練制度では達成されない。
要約すると、一般化可能な数え方行動の学習はまだ未解決の問題であり、さらなる研究のための潜在的なアプローチについて議論する。
関連論文リスト
- Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Theoretical Conditions and Empirical Failure of Bracket Counting on Long
Sequences with Linear Recurrent Networks [11.754328280233628]
線形単一セルネットワークであるRNNについて検討する。
モデルが正確なカウント動作を示す条件を特定する。
線形RNNは、通常、標準手法で訓練された場合の振る舞いをカウントするのに必要かつ十分な条件を満たさないことが観察された。
論文 参考訳(メタデータ) (2023-04-07T13:42:17Z) - How (Implicit) Regularization of ReLU Neural Networks Characterizes the
Learned Function -- Part II: the Multi-D Case of Two Layers with Random First
Layer [2.1485350418225244]
本稿では,ReLUアクティベーションを伴うランダム化した浅層NNの一般化挙動を,正確なマクロ解析により解析する。
RSNは、無限に多くの方向が考慮される一般化加法モデル(GAM)型回帰に対応することを示す。
論文 参考訳(メタデータ) (2023-03-20T21:05:47Z) - Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。
数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文 参考訳(メタデータ) (2021-08-31T18:01:30Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z) - Achieving Online Regression Performance of LSTMs with Simple RNNs [0.0]
本稿では,パラメータ数に線形時間を要する1次学習アルゴリズムを提案する。
SRNNが我々のアルゴリズムでトレーニングされている場合、LSTMと非常によく似た回帰性能を2~3倍の短いトレーニング時間で提供することを示す。
論文 参考訳(メタデータ) (2020-05-16T11:41:13Z) - Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文 参考訳(メタデータ) (2020-03-31T10:55:06Z) - SiTGRU: Single-Tunnelled Gated Recurrent Unit for Abnormality Detection [29.500392184282518]
異常検出のための単一トンネルGRU(Single Tunnelled GRU)と呼ばれるGRU(Gated Recurrent Unit)の新規バージョンを提案する。
提案手法は,標準GRUとLong Short Term Memory(LSTM)ネットワークを,検出および一般化タスクのほとんどの指標で上回っている。
論文 参考訳(メタデータ) (2020-03-30T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。