Fugu-MT 論文翻訳(概要): Recognizing Long Grammatical Sequences Using Recurrent Networks Augmented With An External Differentiable Stack

論文の概要: Recognizing Long Grammatical Sequences Using Recurrent Networks Augmented With An External Differentiable Stack

arxiv url: http://arxiv.org/abs/2004.07623v2
Date: Wed, 22 Apr 2020 15:36:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 22:45:18.189810
Title: Recognizing Long Grammatical Sequences Using Recurrent Networks Augmented With An External Differentiable Stack
Title（参考訳）: 外部微分可能なスタックを付加したリカレントネットワークを用いた長い文法列の認識
Authors: Ankur Mali, Alexander Ororbia, Daniel Kifer, Clyde Lee Giles
Abstract要約: リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。 RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
参考スコア（独自算出の注目度）: 73.48927855855219
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recurrent neural networks (RNNs) are a widely used deep architecture for sequence modeling, generation, and prediction. Despite success in applications such as machine translation and voice recognition, these stateful models have several critical shortcomings. Specifically, RNNs generalize poorly over very long sequences, which limits their applicability to many important temporal processing and time series forecasting problems. For example, RNNs struggle in recognizing complex context free languages (CFLs), never reaching 100% accuracy on training. One way to address these shortcomings is to couple an RNN with an external, differentiable memory structure, such as a stack. However, differentiable memories in prior work have neither been extensively studied on CFLs nor tested on sequences longer than those seen in training. The few efforts that have studied them have shown that continuous differentiable memory structures yield poor generalization for complex CFLs, making the RNN less interpretable. In this paper, we improve the memory-augmented RNN with important architectural and state updating mechanisms that ensure that the model learns to properly balance the use of its latent states with external memory. Our improved RNN models exhibit better generalization performance and are able to classify long strings generated by complex hierarchical context free grammars (CFGs). We evaluate our models on CGGs, including the Dyck languages, as well as on the Penn Treebank language modelling task, and achieve stable, robust performance across these benchmarks. Furthermore, we show that only our memory-augmented networks are capable of retaining memory for a longer duration up to strings of length 160.
Abstract（参考訳）: リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。機械翻訳や音声認識などの応用は成功したが、ステートフルモデルにはいくつかの重大な欠点がある。特に、RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間処理や時系列予測問題に適用性を制限する。例えば、RNNは複雑な文脈自由言語(CFL)を認識するのに苦労し、トレーニングにおいて100%の精度に達することはなかった。これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。しかし、先行研究における相異なる記憶は、CFLで広く研究されることも、トレーニングで見られるものよりも長いシーケンスで試験されることもない。これらの研究は、連続的な微分可能なメモリ構造が複雑なCFLの一般化を損なうことを示しており、RNNは解釈しにくくなっている。本稿では,メモリ拡張されたRNNを重要なアーキテクチャおよび状態更新機構で改善し,モデルが潜在状態と外部メモリとの適切なバランスをとることを確実にする。改良されたRNNモデルは、より優れた一般化性能を示し、複雑な階層的文脈自由文法(CFG)によって生成される長い文字列を分類することができる。我々は、dyck言語を含むcggsのモデルとpenn treebank言語モデリングタスクを評価し、これらのベンチマークで安定して堅牢なパフォーマンスを達成します。さらに,我々のメモリ拡張ネットワークだけが,長さ160列までのメモリを長期間保持可能であることを示す。

関連論文リスト

MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文参考訳（メタデータ） (2024-11-11T16:33:25Z)
Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling [69.36377985746878]
本研究では,RNNの長期的文脈処理能力の低下の原因について検討し,重要な緩和策を提案する。まず,訓練中に遭遇しないシーケンス長の大幅な性能劣化を引き起こす*状態崩壊*(SC)について検討する。我々は,言語モデルとパスキー検索における逐次状態キャパシティを実証的に推定するために,長い文書上に一連のマンバ2モデルを訓練する。
論文参考訳（メタデータ） (2024-10-09T17:54:28Z)
On the Computational Complexity and Formal Hierarchy of Second Order Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN) 有界時間でチューリング完備な RNN のクラスが存在することを証明している。また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文参考訳（メタデータ） (2023-09-26T06:06:47Z)
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。 SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文参考訳（メタデータ） (2023-02-27T16:43:04Z)
MS-RNN: A Flexible Multi-Scale Framework for Spatiotemporal Predictive Learning [7.311071760653835]
予測学習のための最近のRNNモデルを強化するために,Multi-Scale RNN (MS-RNN) という汎用フレームワークを提案する。我々はMS-RNNフレームワークを理論解析と徹底的な実験により検証する。その結果、我々のフレームワークを組み込んだRNNモデルは、メモリコストが大幅に削減されるが、以前よりも性能が向上していることがわかった。
論文参考訳（メタデータ） (2022-06-07T04:57:58Z)
Learning Hierarchical Structures with Differentiable Nondeterministic Stacks [25.064819128982556]
最近提案された非決定論的スタックRNN(NS-RNN)に基づくスタックRNNモデルを提案する。 NS-RNNは,5つの文脈自由言語モデリングタスクにおいて,従来のスタックRNNよりも低エントロピーを実現することを示す。また,自然言語を用いた言語モデリングを実用化するNS-RNNの限定バージョンを提案する。
論文参考訳（メタデータ） (2021-09-05T03:25:23Z)
Deep Time Delay Neural Network for Speech Enhancement with Full Data Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文参考訳（メタデータ） (2020-11-11T06:32:37Z)
On the Practical Ability of Recurrent Neural Networks to Recognize Hierarchical Languages [9.12267978757844]
我々はDyck-n言語における繰り返しモデルの性能について検討する。リカレントモデルは、トレーニング文字列とテスト文字列の長さが同じ範囲である場合、ほぼ完全に一般化するが、テスト文字列が長い場合、性能は低下する。
論文参考訳（メタデータ） (2020-11-08T12:15:31Z)
Learning Context-Free Languages with Nondeterministic Stack RNNs [20.996069249108224]
本稿では,指数的なスタック構成を同時にかつトラクタブルに符号化する,微分可能なスタックデータ構造を提案する。我々は、このデータ構造とリカレントニューラルネットワーク(RNN)コントローラの組み合わせを非決定論的スタックRNNと呼んでいる。
論文参考訳（メタデータ） (2020-10-09T16:48:41Z)
Incremental Training of a Recurrent Neural Network Exploiting a Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文参考訳（メタデータ） (2020-06-29T08:35:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。