論文の概要: Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling
- arxiv url: http://arxiv.org/abs/2410.07145v1
- Date: Wed, 9 Oct 2024 17:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:06:43.467332
- Title: Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling
- Title(参考訳): Stuffed Mamba: RNNベースロングコンテキストモデリングの状態崩壊と状態容量
- Authors: Yingfa Chen, Xinrong Zhang, Shengding Hu, Xu Han, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 本研究では,RNNの長期的文脈処理能力の低下の原因について検討し,重要な緩和策を提案する。
まず,訓練中に遭遇しないシーケンス長の大幅な性能劣化を引き起こす*状態崩壊*(SC)について検討する。
我々は,言語モデルとパスキー検索における逐次状態キャパシティを実証的に推定するために,長い文書上に一連のマンバ2モデルを訓練する。
- 参考スコア(独自算出の注目度): 69.36377985746878
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: One essential advantage of recurrent neural networks (RNNs) over transformer-based language models is their linear computational complexity concerning the sequence length, which makes them much faster in handling long sequences during inference. However, most publicly available RNNs (e.g., Mamba and RWKV) are trained on sequences with less than 10K tokens, and their effectiveness in longer contexts remains largely unsatisfying so far. In this paper, we study the cause of the inability to process long context for RNNs and suggest critical mitigations. We examine two practical concerns when applying state-of-the-art RNNs to long contexts: (1) the inability to extrapolate to inputs longer than the training length and (2) the upper bound of memory capacity. Addressing the first concern, we first investigate *state collapse* (SC), a phenomenon that causes severe performance degradation on sequence lengths not encountered during training. With controlled experiments, we attribute this to overfitting due to the recurrent state being overparameterized for the training length. For the second concern, we train a series of Mamba-2 models on long documents to empirically estimate the recurrent state capacity in language modeling and passkey retrieval. Then, three SC mitigation methods are proposed to improve Mamba-2's length generalizability, allowing the model to process more than 1M tokens without SC. We also find that the recurrent state capacity in passkey retrieval scales exponentially to the state size, and we empirically train a Mamba-2 370M with near-perfect passkey retrieval accuracy on 256K context length. This suggests a promising future for RNN-based long-context modeling.
- Abstract(参考訳): トランスフォーマーベースの言語モデルに対するリカレントニューラルネットワーク(RNN)の重要な利点の1つは、シーケンス長に関する線形計算の複雑さである。
しかし、ほとんどの公開RNN(例:Mamba、RWKV)は10Kトークン未満のシーケンスで訓練されており、長いコンテキストにおけるその有効性は、今のところほとんど満足できないままである。
本稿では,RNNの長期的文脈処理能力の低下の原因について検討し,重要な緩和策を提案する。
本研究では,(1)トレーニング長よりも長い入力に外挿できないこと,(2)メモリ容量の上限について,最先端のRNNを長期的文脈に適用する際の2つの実践的関心点について検討する。
最初の懸念に対処するために、まず、トレーニング中に遭遇しないシーケンス長の大幅なパフォーマンス劣化を引き起こす*状態崩壊*(SC)を調査する。
制御された実験では、繰り返し状態がトレーニング長に対して過度にパラメータ化されているため、過度に適合していると考えられる。
第2の懸念事項として,言語モデリングとパスキー検索における逐次状態キャパシティを実証的に推定するために,長いドキュメント上に一連のMamba-2モデルを訓練する。
そして、3つのSC緩和法が提案され、Mamba-2の長さの一般化性が向上し、SCなしで1M以上のトークンを処理できるようになった。
また、パスキー検索における再帰状態容量は、状態サイズに指数関数的にスケールし、256Kコンテキスト長に対してほぼ完全なパスキー検索精度を持つMamba-2 370Mを実験的に訓練する。
これは、RNNベースの長期コンテキストモデリングにとって有望な未来を示唆している。
関連論文リスト
- Were RNNs All We Needed? [53.393497486332]
従来のリカレントニューラルネットワーク(RNN)を10年以上前から再検討しています。
入力から隠れた状態依存を取り除くことで、LSTMやGRUはBPTTを必要とせず、並列で効率的に訓練できることを示す。
論文 参考訳(メタデータ) (2024-10-02T03:06:49Z) - Learning to (Learn at Test Time): RNNs with Expressive Hidden States [69.78469963604063]
本稿では,線形複雑度と表現的隠蔽状態を有する新しいシーケンスモデリング層を提案する。
隠れた状態はテストシーケンスでもトレーニングによって更新されるので、私たちのレイヤはテスト時間トレーニング層と呼ばれます。
論文 参考訳(メタデータ) (2024-07-05T16:23:20Z) - On the Computational Complexity and Formal Hierarchy of Second Order
Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN)
有界時間でチューリング完備な RNN のクラスが存在することを証明している。
また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文 参考訳(メタデータ) (2023-09-26T06:06:47Z) - INK: Injecting kNN Knowledge in Nearest Neighbor Machine Translation [57.952478914459164]
kNN-MTは、推論中に隣接する表現に基づいて予測を円滑にするための効果的なパラダイムを提供する。
我々は,kNN近傍の表現を少数の新しいパラメータで調整することで,表現空間を円滑にするための効果的なトレーニングフレームワークINKを提案する。
4つのベンチマークデータセットでの実験では、メソッドは1.99 COMETと1.0 BLEUの平均ゲインを達成し、0.02倍のメモリ空間と1.9倍の推論速度を持つ最先端のkNN-MTシステムより優れていた。
論文 参考訳(メタデータ) (2023-06-10T08:39:16Z) - SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。
イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。
SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文 参考訳(メタデータ) (2023-02-27T16:43:04Z) - Recurrent Neural Networks for Learning Long-term Temporal Dependencies
with Reanalysis of Time Scale Representation [16.32068729107421]
時間的表現としての忘れ門の解釈は、状態に対する損失の勾配が時間とともに指数関数的に減少するときに有効であると主張する。
本稿では,従来のモデルよりも長い時間スケールを表現できる新しいRNNの構築手法を提案する。
論文 参考訳(メタデータ) (2021-11-05T06:22:58Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。