Fugu-MT 論文翻訳(概要): Stuffed Mamba: Oversized States Lead to the Inability to Forget

論文の概要: Stuffed Mamba: Oversized States Lead to the Inability to Forget

arxiv url: http://arxiv.org/abs/2410.07145v2
Date: Mon, 26 May 2025 09:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.056508
Title: Stuffed Mamba: Oversized States Lead to the Inability to Forget
Title（参考訳）: Stuffed Mamba:大きすぎる国家は忘れられない
Authors: Yingfa Chen, Xinrong Zhang, Shengding Hu, Xu Han, Zhiyuan Liu, Maosong Sun,
Abstract要約: Mambaベースのモデルは、内蔵の忘れ物機構であっても、以前のトークンを効果的に忘れるのに苦労していることを示す。モデルの学習に必要な最小トレーニング長は状態サイズと線形に一致し,5桁パスキーの精度向上のための最大コンテキスト長は状態サイズと指数関数的に一致した。我々の研究は、将来のRNN設計は、状態サイズ、トレーニング期間、長いコンテキストタスクにおいて堅牢なパフォーマンスを達成するためのメカニズムを忘れることの間の相互作用を考慮しなければならないことを示唆している。
参考スコア（独自算出の注目度）: 69.36377985746878
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advancements in recurrent architectures, such as Mamba and RWKV, have showcased strong language capabilities. Unlike transformer-based models, these architectures encode all contextual information into a fixed-size state, leading to great inference efficiency. However, this approach can cause information interference, where different token data conflicts, resulting in performance degradation and incoherent outputs beyond a certain context length. To prevent this, most RNNs incorporate mechanisms designed to "forget" earlier tokens. In this paper, we reveal that Mamba-based models struggle to effectively forget earlier tokens even with built-in forgetting mechanisms. We demonstrate that this issue stems from training on contexts that are too short for the state size, enabling the model to perform well without needing to learn how to forget. Then, we show that the minimum training length required for the model to learn forgetting scales linearly with the state size, and the maximum context length for accurate retrieval of a 5-digit passkey scales exponentially with the state size, indicating that the model retains some information beyond the point where forgetting begins. These findings highlight a critical limitation in current RNN architectures and provide valuable insights for improving long-context modeling. Our work suggests that future RNN designs must account for the interplay between state size, training length, and forgetting mechanisms to achieve robust performance in long-context tasks.
Abstract（参考訳）: MambaやRWKVといったリカレントアーキテクチャの最近の進歩は、強力な言語能力を示している。トランスフォーマーベースのモデルとは異なり、これらのアーキテクチャはすべてのコンテキスト情報を固定サイズの状態にエンコードし、推論効率が高い。しかし、このアプローチは異なるトークンデータに衝突する情報干渉を引き起こす可能性があるため、パフォーマンスの低下と特定のコンテキスト長を超える不整合出力が発生する。これを防ぐため、ほとんどのRNNには、以前のトークンを“忘れる”ためのメカニズムが組み込まれている。本稿では,マンバをベースとしたモデルにおいて,従来のトークンを効果的に忘れることが困難であることを明らかにする。この問題は、状態サイズが短すぎる状況でのトレーニングが原因で、モデルを忘れる方法を学ぶことなく、うまく機能できることを実証しています。そして,5桁パスキーの正確な検索のための最大文脈長は,その状態サイズと指数関数的に指数関数的に増加し,そのモデルが記憶開始点を超える情報を保持することを示す。これらの知見は、現在のRNNアーキテクチャにおける重要な限界を浮き彫りにし、長期コンテキストモデリングを改善するための貴重な洞察を提供する。我々の研究は、将来のRNN設計は、状態サイズ、トレーニング期間、長いコンテキストタスクにおいて堅牢なパフォーマンスを達成するためのメカニズムを忘れることの間の相互作用を考慮しなければならないことを示唆している。

関連論文リスト

Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models [72.75501495786297]
本稿では,Mambaアーキテクチャ上に構築されたハイブリッド線形RNN推論モデルM1を紹介する。実験結果から,M1は従来の線形RNNモデルよりも優れていただけでなく,最先端のDeepSeek R1蒸留推論モデルの性能とも一致していることがわかった。
論文参考訳（メタデータ） (2025-04-14T17:38:25Z)
Token Weighting for Long-Range Language Modeling [50.2371550397256]
損失時の各トレーニングトークンに異なる重みを割り当てる新しいトークン重み付け方式を提案する。複数の長文理解タスクにおける全ての手法を評価し、不均一な損失重みが有用であることを示す。この研究は、長いコンテキスト言語モデリングのトレードオフのより深い理解に寄与します。
論文参考訳（メタデータ） (2025-03-12T09:46:59Z)
RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文参考訳（メタデータ） (2024-10-10T15:24:12Z)
Were RNNs All We Needed? [53.393497486332]
従来のリカレントニューラルネットワーク(RNN)を10年以上前から再検討しています。入力から隠れた状態依存を取り除くことで、LSTMやGRUはBPTTを必要とせず、並列で効率的に訓練できることを示す。
論文参考訳（メタデータ） (2024-10-02T03:06:49Z)
Learning to (Learn at Test Time): RNNs with Expressive Hidden States [69.78469963604063]
本稿では,線形複雑度と表現的隠蔽状態を有する新しいシーケンスモデリング層を提案する。隠れた状態はテストシーケンスでもトレーニングによって更新されるので、私たちのレイヤはテスト時間トレーニング層と呼ばれます。
論文参考訳（メタデータ） (2024-07-05T16:23:20Z)
Knowledge Translation: A New Pathway for Model Compression [22.106103818486144]
TextbfKnowledge textbfTranslation (KT) 翻訳のモデルは、より大きなモデルのパラメータを受け取り、圧縮されたパラメータを生成するように訓練される。我々は、KTの包括的なフレームワークを提案し、制限されたトレーニングデータにもかかわらず、モデル性能を向上させるためのデータ拡張戦略を導入し、MNISTデータセット上でのKTの実現可能性の実証に成功した。
論文参考訳（メタデータ） (2024-01-11T09:25:42Z)
On the Computational Complexity and Formal Hierarchy of Second Order Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN) 有界時間でチューリング完備な RNN のクラスが存在することを証明している。また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文参考訳（メタデータ） (2023-09-26T06:06:47Z)
INK: Injecting kNN Knowledge in Nearest Neighbor Machine Translation [57.952478914459164]
kNN-MTは、推論中に隣接する表現に基づいて予測を円滑にするための効果的なパラダイムを提供する。我々は,kNN近傍の表現を少数の新しいパラメータで調整することで,表現空間を円滑にするための効果的なトレーニングフレームワークINKを提案する。 4つのベンチマークデータセットでの実験では、メソッドは1.99 COMETと1.0 BLEUの平均ゲインを達成し、0.02倍のメモリ空間と1.9倍の推論速度を持つ最先端のkNN-MTシステムより優れていた。
論文参考訳（メタデータ） (2023-06-10T08:39:16Z)
Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文参考訳（メタデータ） (2023-03-24T16:03:21Z)
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。 SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文参考訳（メタデータ） (2023-02-27T16:43:04Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Recurrent Neural Networks for Learning Long-term Temporal Dependencies with Reanalysis of Time Scale Representation [16.32068729107421]
時間的表現としての忘れ門の解釈は、状態に対する損失の勾配が時間とともに指数関数的に減少するときに有効であると主張する。本稿では,従来のモデルよりも長い時間スケールを表現できる新しいRNNの構築手法を提案する。
論文参考訳（メタデータ） (2021-11-05T06:22:58Z)
Recognizing Long Grammatical Sequences Using Recurrent Networks Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。 RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文参考訳（メタデータ） (2020-04-04T14:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。