Fugu-MT 論文翻訳(概要): Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling

論文の概要: Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling

arxiv url: http://arxiv.org/abs/2410.07145v1
Date: Wed, 9 Oct 2024 17:54:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 22:06:43.467332
Title: Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling
Title（参考訳）: Stuffed Mamba: RNNベースロングコンテキストモデリングの状態崩壊と状態容量
Authors: Yingfa Chen, Xinrong Zhang, Shengding Hu, Xu Han, Zhiyuan Liu, Maosong Sun,
Abstract要約: 本研究では,RNNの長期的文脈処理能力の低下の原因について検討し,重要な緩和策を提案する。まず,訓練中に遭遇しないシーケンス長の大幅な性能劣化を引き起こす*状態崩壊*(SC)について検討する。我々は,言語モデルとパスキー検索における逐次状態キャパシティを実証的に推定するために,長い文書上に一連のマンバ2モデルを訓練する。
参考スコア（独自算出の注目度）: 69.36377985746878
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: One essential advantage of recurrent neural networks (RNNs) over transformer-based language models is their linear computational complexity concerning the sequence length, which makes them much faster in handling long sequences during inference. However, most publicly available RNNs (e.g., Mamba and RWKV) are trained on sequences with less than 10K tokens, and their effectiveness in longer contexts remains largely unsatisfying so far. In this paper, we study the cause of the inability to process long context for RNNs and suggest critical mitigations. We examine two practical concerns when applying state-of-the-art RNNs to long contexts: (1) the inability to extrapolate to inputs longer than the training length and (2) the upper bound of memory capacity. Addressing the first concern, we first investigate *state collapse* (SC), a phenomenon that causes severe performance degradation on sequence lengths not encountered during training. With controlled experiments, we attribute this to overfitting due to the recurrent state being overparameterized for the training length. For the second concern, we train a series of Mamba-2 models on long documents to empirically estimate the recurrent state capacity in language modeling and passkey retrieval. Then, three SC mitigation methods are proposed to improve Mamba-2's length generalizability, allowing the model to process more than 1M tokens without SC. We also find that the recurrent state capacity in passkey retrieval scales exponentially to the state size, and we empirically train a Mamba-2 370M with near-perfect passkey retrieval accuracy on 256K context length. This suggests a promising future for RNN-based long-context modeling.
Abstract（参考訳）: トランスフォーマーベースの言語モデルに対するリカレントニューラルネットワーク(RNN)の重要な利点の1つは、シーケンス長に関する線形計算の複雑さである。しかし、ほとんどの公開RNN(例:Mamba、RWKV)は10Kトークン未満のシーケンスで訓練されており、長いコンテキストにおけるその有効性は、今のところほとんど満足できないままである。本稿では,RNNの長期的文脈処理能力の低下の原因について検討し,重要な緩和策を提案する。本研究では,(1)トレーニング長よりも長い入力に外挿できないこと,(2)メモリ容量の上限について,最先端のRNNを長期的文脈に適用する際の2つの実践的関心点について検討する。最初の懸念に対処するために、まず、トレーニング中に遭遇しないシーケンス長の大幅なパフォーマンス劣化を引き起こす*状態崩壊*(SC)を調査する。制御された実験では、繰り返し状態がトレーニング長に対して過度にパラメータ化されているため、過度に適合していると考えられる。第2の懸念事項として,言語モデリングとパスキー検索における逐次状態キャパシティを実証的に推定するために,長いドキュメント上に一連のMamba-2モデルを訓練する。そして、3つのSC緩和法が提案され、Mamba-2の長さの一般化性が向上し、SCなしで1M以上のトークンを処理できるようになった。また、パスキー検索における再帰状態容量は、状態サイズに指数関数的にスケールし、256Kコンテキスト長に対してほぼ完全なパスキー検索精度を持つMamba-2 370Mを実験的に訓練する。これは、RNNベースの長期コンテキストモデリングにとって有望な未来を示唆している。

関連論文リスト

Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models [72.75501495786297]
本稿では,Mambaアーキテクチャ上に構築されたハイブリッド線形RNN推論モデルM1を紹介する。実験結果から,M1は従来の線形RNNモデルよりも優れていただけでなく,最先端のDeepSeek R1蒸留推論モデルの性能とも一致していることがわかった。
論文参考訳（メタデータ） (2025-04-14T17:38:25Z)
Token Weighting for Long-Range Language Modeling [50.2371550397256]
損失時の各トレーニングトークンに異なる重みを割り当てる新しいトークン重み付け方式を提案する。複数の長文理解タスクにおける全ての手法を評価し、不均一な損失重みが有用であることを示す。この研究は、長いコンテキスト言語モデリングのトレードオフのより深い理解に寄与します。
論文参考訳（メタデータ） (2025-03-12T09:46:59Z)
RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文参考訳（メタデータ） (2024-10-10T15:24:12Z)
Were RNNs All We Needed? [53.393497486332]
従来のリカレントニューラルネットワーク(RNN)を10年以上前から再検討しています。入力から隠れた状態依存を取り除くことで、LSTMやGRUはBPTTを必要とせず、並列で効率的に訓練できることを示す。
論文参考訳（メタデータ） (2024-10-02T03:06:49Z)
Learning to (Learn at Test Time): RNNs with Expressive Hidden States [69.78469963604063]
本稿では,線形複雑度と表現的隠蔽状態を有する新しいシーケンスモデリング層を提案する。隠れた状態はテストシーケンスでもトレーニングによって更新されるので、私たちのレイヤはテスト時間トレーニング層と呼ばれます。
論文参考訳（メタデータ） (2024-07-05T16:23:20Z)
Knowledge Translation: A New Pathway for Model Compression [22.106103818486144]
TextbfKnowledge textbfTranslation (KT) 翻訳のモデルは、より大きなモデルのパラメータを受け取り、圧縮されたパラメータを生成するように訓練される。我々は、KTの包括的なフレームワークを提案し、制限されたトレーニングデータにもかかわらず、モデル性能を向上させるためのデータ拡張戦略を導入し、MNISTデータセット上でのKTの実現可能性の実証に成功した。
論文参考訳（メタデータ） (2024-01-11T09:25:42Z)
On the Computational Complexity and Formal Hierarchy of Second Order Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN) 有界時間でチューリング完備な RNN のクラスが存在することを証明している。また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文参考訳（メタデータ） (2023-09-26T06:06:47Z)
INK: Injecting kNN Knowledge in Nearest Neighbor Machine Translation [57.952478914459164]
kNN-MTは、推論中に隣接する表現に基づいて予測を円滑にするための効果的なパラダイムを提供する。我々は,kNN近傍の表現を少数の新しいパラメータで調整することで,表現空間を円滑にするための効果的なトレーニングフレームワークINKを提案する。 4つのベンチマークデータセットでの実験では、メソッドは1.99 COMETと1.0 BLEUの平均ゲインを達成し、0.02倍のメモリ空間と1.9倍の推論速度を持つ最先端のkNN-MTシステムより優れていた。
論文参考訳（メタデータ） (2023-06-10T08:39:16Z)
Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文参考訳（メタデータ） (2023-03-24T16:03:21Z)
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。 SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文参考訳（メタデータ） (2023-02-27T16:43:04Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Recurrent Neural Networks for Learning Long-term Temporal Dependencies with Reanalysis of Time Scale Representation [16.32068729107421]
時間的表現としての忘れ門の解釈は、状態に対する損失の勾配が時間とともに指数関数的に減少するときに有効であると主張する。本稿では,従来のモデルよりも長い時間スケールを表現できる新しいRNNの構築手法を提案する。
論文参考訳（メタデータ） (2021-11-05T06:22:58Z)
Recognizing Long Grammatical Sequences Using Recurrent Networks Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。 RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文参考訳（メタデータ） (2020-04-04T14:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。