論文の概要: Language Modeling With Factorization Memory
- arxiv url: http://arxiv.org/abs/2511.00315v1
- Date: Fri, 31 Oct 2025 23:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.713266
- Title: Language Modeling With Factorization Memory
- Title(参考訳): 因子化メモリを用いた言語モデリング
- Authors: Lee Xiong, Maksim Tkachenko, Johanes Effendi, Ting Cai,
- Abstract要約: 本稿では,短時間の言語モデリングタスクにおけるTransformerモデルに匹敵する性能を実現する,効率的なリカレントニューラルネットワーク(RNN)アーキテクチャであるFacterization Memoryを提案する。
本研究では,各ステップにおける逐次状態のサブセットのみを更新し,その高密度な状態の強い性能を保ったFacterization Memoryのスパース定式化を開発する。
- 参考スコア(独自算出の注目度): 1.9538130634206368
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose Factorization Memory, an efficient recurrent neural network (RNN) architecture that achieves performance comparable to Transformer models on short-context language modeling tasks while also demonstrating superior generalization in long-context scenarios. Our model builds upon Mamba-2, enabling Factorization Memory to exploit parallel computations during training while preserving constant computational and memory complexity during inference. To further optimize model efficiency and representational capacity, we develop a sparse formulation of Factorization Memory that updates only a subset of recurrent states at each step while preserving the strong performance of its dense counterpart. To our knowledge, this represents the first RNN architecture that successfully combines sparse memory activation with competitive performance across both short and long-context settings. This work provides a systematic empirical analysis of Factorization Memory in comparison to Transformer and Mamba-2 architectures.
- Abstract(参考訳): 本稿では、短時間の言語モデリングタスクにおいて、Transformerモデルに匹敵する性能を実現するとともに、長期のシナリオにおいて優れた一般化を示す、効率的なリカレントニューラルネットワーク(RNN)アーキテクチャであるFacterization Memoryを提案する。
我々のモデルはMamba-2上に構築されており、Facterization Memoryは、推論中に一定の計算量とメモリの複雑さを保ちながら、トレーニング中に並列計算を活用できる。
モデル効率と表現能力をさらに最適化するため,各ステップにおける再帰状態のサブセットのみを更新し,その高密度な処理性能を保ちながら,分解メモリのスパース定式化を開発する。
我々の知る限り、これはスパースメモリアクティベーションと短文と長文の両方で競合する性能をうまく組み合わせる最初のRNNアーキテクチャである。
この研究は、TransformerやMamba-2アーキテクチャと比較して、Facterization Memoryを体系的に分析する。
関連論文リスト
- MemMamba: Rethinking Memory Patterns in State Space Model [6.537535831000493]
マンバのような選択的状態空間モデルは O(n) 時間と O(1) 繰り返しの推論で高い効率性を示すが、その長距離メモリは指数関数的に崩壊する。
長文読解時の塩分情報の蒸留・保存方法に着想を得て,MemMambaを提案する。
MemMambaは、長期間のベンチマークで既存のMambaとTransformerよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-28T14:40:58Z) - ATLAS: Learning to Optimally Memorize the Context at Test Time [31.41718170413687]
ATLASは、コンテキストを記憶する能力の高い長期記憶モジュールである。
本稿では,従来のトランスフォーマーアーキテクチャの厳密な一般化であるDeep Transformerと呼ばれる,トランスフォーマーライクなアーキテクチャの新たなファミリーを紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:57:16Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory [5.073292775065559]
理想的なニューロモルフィック・ニューラル-インスパイアされた神経平衡は局所的だがパラレルなパラメータの更新に頼り、2次プログラミングからイジングマシンまで幅広い問題を解決する。
本稿では,学習の内外熱力学を解析し,その結果のエネルギー効率の推定値がモデルに依存しないことを示す。
結果の実用性を示すため,我々は,大規模AIワークロードにおけるエネルギー対ソリューションの指標値の低バウンドを推定するために,分析を適用した。
論文 参考訳(メタデータ) (2024-02-21T21:02:11Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。