論文の概要: StateX: Enhancing RNN Recall via Post-training State Expansion
- arxiv url: http://arxiv.org/abs/2509.22630v1
- Date: Fri, 26 Sep 2025 17:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.629202
- Title: StateX: Enhancing RNN Recall via Post-training State Expansion
- Title(参考訳): StateX: トレーニング後のステート拡張によるRNNリコールの強化
- Authors: Xingyu Shen, Yingfa Chen, Zhen Leng Thai, Xu Han, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 我々は、トレーニング後RNNの状態を効率的に拡張するためのトレーニングパイプラインであるStateXを紹介する。
最大1.3Bパラメータのモデル実験により、StateXはトレーニング後の高コストや他の能力の妥協なしに、RNNのリコールとコンテキスト内学習能力を効率的に向上することを示した。
- 参考スコア(独自算出の注目度): 48.96665606047916
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While Transformer-based models have demonstrated remarkable language modeling performance, their high complexities result in high costs when processing long contexts. In contrast, recurrent neural networks (RNNs) such as linear attention and state space models have gained popularity due to their constant per-token complexities. However, these recurrent models struggle with tasks that require accurate recall of contextual information from long contexts, because all contextual information is compressed into a constant-size recurrent state. Previous works have shown that recall ability is positively correlated with the recurrent state size, yet directly training RNNs with larger recurrent states results in high training costs. In this paper, we introduce StateX, a training pipeline for efficiently expanding the states of pre-trained RNNs through post-training. For two popular classes of RNNs, linear attention and state space models, we design post-training architectural modifications to scale up the state size with no or negligible increase in model parameters. Experiments on models up to 1.3B parameters demonstrate that StateX efficiently enhances the recall and in-context learning ability of RNNs without incurring high post-training costs or compromising other capabilities.
- Abstract(参考訳): トランスフォーマーベースのモデルでは言語モデリングの性能は顕著だが、長いコンテキストを処理する場合、その複雑さが高いと高いコストがかかる。
対照的に、線形アテンションや状態空間モデルのようなリカレントニューラルネットワーク(RNN)は、各トーケンの複雑さが一定であるために人気を博している。
しかしながら、これらのリカレントモデルは、全てのコンテキスト情報が一定サイズのリカレント状態に圧縮されるため、長いコンテキストからのコンテキスト情報の正確なリコールを必要とするタスクと競合する。
以前の研究では、リコール能力はリカレント状態サイズと正の相関性を示すが、リカレント状態のRNNを直接トレーニングすることで、トレーニングコストが高いことが示されている。
本稿では,事前学習後のRNNの状態を効率的に拡張するためのトレーニングパイプラインであるStateXを紹介する。
線形アテンションと状態空間モデルという2つの一般的なクラスに対して、モデルパラメータの無あるいは無視的な増加を伴わずに、状態サイズをスケールアップする訓練後のアーキテクチャ修正を設計する。
最大1.3Bパラメータのモデル実験により、StateXはトレーニング後の高コストや他の能力の妥協なしに、RNNのリコールとコンテキスト内学習能力を効率的に向上することを示した。
関連論文リスト
- Stuffed Mamba: Oversized States Lead to the Inability to Forget [53.512358993801115]
Mambaベースのモデルは、内蔵の忘れ物機構であっても、以前のトークンを効果的に忘れるのに苦労していることを示す。
モデルの学習に必要な最小トレーニング長は状態サイズと線形に一致し,5桁パスキーの精度向上のための最大コンテキスト長は状態サイズと指数関数的に一致した。
我々の研究は、将来のRNN設計は、状態サイズ、トレーニング期間、長いコンテキストタスクにおいて堅牢なパフォーマンスを達成するためのメカニズムを忘れることの間の相互作用を考慮しなければならないことを示唆している。
論文 参考訳(メタデータ) (2024-10-09T17:54:28Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - State-driven Implicit Modeling for Sparsity and Robustness in Neural
Networks [3.604879434384177]
SIM(State-driven Implicit Modeling)と呼ばれる暗黙的モデルをトレーニングするための新しいアプローチを提案する。
SIMは内部の状態と出力をベースラインモデルと一致させ、コストのかかる後方計算を回避する。
本稿では,データセット上でトレーニングされたベースラインモデルの空間性とロバスト性を大幅に向上するためにSIMアプローチを適用する方法を示す。
論文 参考訳(メタデータ) (2022-09-19T23:58:48Z) - EGRU: Event-based GRU for activity-sparse inference and learning [0.8260432715157026]
本稿では,GRU(Gated Recurrent Units)をイベントベースアクティビティスパースモデルとして再構成するモデルを提案する。
イベントベースGRU(EGRU)は,実世界のタスクにおける最先端のリカレントネットワークモデルと比較して,競合性能を示す。
論文 参考訳(メタデータ) (2022-06-13T14:07:56Z) - Least Redundant Gated Recurrent Neural Network [0.0]
我々は、Deep Memory Update (DMU)と呼ばれるリカレントニューラルネットワークを導入する。
これは、ラグ状態とネットワーク入力の深い変換により、前のメモリ状態を更新することに基づいている。
学習速度をモジュールのサイズに関連付けるため、トレーニングは安定して高速である。
論文 参考訳(メタデータ) (2021-05-28T20:24:00Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。