論文の概要: AllMem: A Memory-centric Recipe for Efficient Long-context Modeling
- arxiv url: http://arxiv.org/abs/2602.13680v1
- Date: Sat, 14 Feb 2026 09:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.33219
- Title: AllMem: A Memory-centric Recipe for Efficient Long-context Modeling
- Title(参考訳): AllMem: 効率的な長文モデリングのためのメモリ中心のレシピ
- Authors: Ziming Wang, Xiang Wang, Kailong Peng, Lang Qin, Juan Gabriel Kostelec, Christos Sourmpis, Axel Laborieux, Qinghai Guo,
- Abstract要約: 大規模言語モデル(LLM)は、長時間のタスクにおいて重大なパフォーマンスボトルネックに直面する。
SWA(Sliding Window Attention)とTTT(Non-linear Test-Time Training)メモリネットワークを統合した,新規で効率的なハイブリッドアーキテクチャであるtextscAllMemを紹介する。
- 参考スコア(独自算出の注目度): 32.025154452526856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) encounter significant performance bottlenecks in long-sequence tasks due to the computational complexity and memory overhead inherent in the self-attention mechanism. To address these challenges, we introduce \textsc{AllMem}, a novel and efficient hybrid architecture that integrates Sliding Window Attention (SWA) with non-linear Test-Time Training (TTT) memory networks. \textsc{AllMem} enables models to effectively scale to ultra-long contexts while mitigating catastrophic forgetting. This approach not only overcomes the representation constraints typical of linear memory models but also significantly reduces the computational and memory footprint during long-sequence inference. Furthermore, we implement a Memory-Efficient Fine-Tuning strategy to replace standard attention layers in pre-trained models with memory-augmented sliding window layers. This framework facilitates the efficient transformation of any off-the-shelf pre-trained LLM into an \textsc{AllMem}-based architecture. Empirical evaluations confirm that our 4k window model achieves near-lossless performance on 37k LongBench with a marginal 0.83 drop compared to full attention. Furthermore, on InfiniteBench at a 128k context, our 8k window variant outperforms full attention, which validates the effectiveness of our parameterized memory in mitigating noise and maintaining robust long-range modeling without the prohibitive costs of global attention.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自己保持機構に固有の計算複雑性とメモリオーバーヘッドのため、長時間のタスクにおいて重大なパフォーマンスボトルネックに直面する。
これらの課題に対処するために,スライディングウインドウ・アテンション(SWA)と非線形テスト時間トレーニング(TTT)メモリネットワークを統合した,新規で効率的なハイブリッドアーキテクチャである \textsc{AllMem} を導入する。
\textsc{AllMem} は、破滅的な忘れを緩和しながら、モデルを超長期のコンテキストに効果的にスケールすることができる。
このアプローチは線形メモリモデルに典型的な表現制約を克服するだけでなく、長時間の推論において計算量やメモリフットプリントを大幅に削減する。
さらに,事前学習したモデルにおける標準的な注意層をメモリ拡張されたスライディングウィンドウ層に置き換えるために,メモリ効率の良いファインタニング戦略を実装した。
このフレームワークは、既修の既修LLMを \textsc{AllMem} ベースのアーキテクチャに効率的な変換を容易にする。
実験的な評価により、我々の4kウィンドウモデルが37k LongBench上でほぼ無作為な性能を達成することを確認した。
さらに、InfiniteBenchでは、128kの文脈で8kウィンドウの変形が完全に優れており、これは我々のパラメータ化メモリの雑音軽減効果と、世界的注目の禁止コストを伴わない堅牢な長距離モデリングの維持効果を実証するものである。
関連論文リスト
- MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。
1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文 参考訳(メタデータ) (2026-02-12T09:37:05Z) - Mosaic: Unlocking Long-Context Inference for Diffusion LLMs via Global Memory Planning and Dynamic Peak Taming [34.16016695663811]
拡散に基づく大規模言語モデル (dLLMs) は,グローバルプランニングと反復的改良を実現するために,同時認知を利用した,有望なパラダイムとして登場した。
既存の推論システムは、厳密なシステム非効率のため、このパラダイムに不適である。
ローカルな静的管理からグローバルな動的パラダイムに移行するメモリ効率のよい推論システムであるMosaicを提案する。
論文 参考訳(メタデータ) (2026-01-10T13:17:08Z) - MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs [9.086910335841772]
メモリウォール」のボトルネックは、現代の大規模Mixture-of-Experts (MoE)アーキテクチャで顕著に増幅されている。
私たちは、メモリ効率のよいMoEトレーニングフレームワークであるMoEBlazeを紹介します。
既存のMoEフレームワークと比較して、MoEBlazeは4倍以上のスピードアップと50%以上のメモリ節約を実現できます。
論文 参考訳(メタデータ) (2026-01-08T08:38:23Z) - Artificial Hippocampus Networks for Efficient Long-Context Modeling [17.23148291364832]
ロングシーケンス・モデリングは、RNNのようなモデルにおける圧縮固定サイズメモリの効率と、注目ベースのトランスフォーマーにおけるメモリの増大の忠実さとのトレードオフに直面している。
認知科学における多段階モデルに着想を得て,人工ニューラルネットワークのメモリフレームワークを導入する。
長文ベンチマークのLV-EvalとInfiniteBenchの実験は、AHN拡張モデルがスライディングウインドウベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-10-08T17:59:55Z) - iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。
本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。
提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文 参考訳(メタデータ) (2025-03-20T19:10:37Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。