論文の概要: UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning
- arxiv url: http://arxiv.org/abs/2508.18756v1
- Date: Tue, 26 Aug 2025 07:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.728869
- Title: UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning
- Title(参考訳): UltraMemV2:超長期学習で120Bパラメータにスケールするメモリネットワーク
- Authors: Zihao Huang, Yu Bao, Qiyang Min, Siyan Chen, Ran Guo, Hongzhi Huang, Defa Zhu, Yutao Zeng, Banggu Wu, Xun Zhou, Siyuan Qiao,
- Abstract要約: メモリ層アーキテクチャは、非常に少ないメモリアクセスで魅力的な代替手段を提供する。
この性能ギャップを埋める再設計されたメモリ層アーキテクチャであるUltraMemV2を提案する。
また,UltraMemV2 は 8-expert MoE モデルと同等の計算量とパラメータを持つが,メモリアクセスは著しく低いことを示す。
- 参考スコア(独自算出の注目度): 22.029614513198663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Mixture of Experts (MoE) models achieve remarkable efficiency by activating only subsets of parameters, they suffer from high memory access costs during inference. Memory-layer architectures offer an appealing alternative with very few memory access, but previous attempts like UltraMem have only matched the performance of 2-expert MoE models, falling significantly short of state-of-the-art 8-expert configurations. We present UltraMemV2, a redesigned memory-layer architecture that closes this performance gap. Our approach introduces five key improvements: integrating memory layers into every transformer block, simplifying value expansion with single linear projections, adopting FFN-based value processing from PEER, implementing principled parameter initialization, and rebalancing memory-to-FFN computation ratios. Through extensive evaluation, we demonstrate that UltraMemV2 achieves performance parity with 8-expert MoE models under same computation and parameters but significantly low memory access. Notably, UltraMemV2 shows superior performance on memory-intensive tasks, with improvements of +1.6 points on long-context memorization, +6.2 points on multi-round memorization, and +7.9 points on in-context learning. We validate our approach at scale with models up to 2.5B activated parameters from 120B total parameters, and establish that activation density has greater impact on performance than total sparse parameter count. Our work brings memory-layer architectures to performance parity with state-of-the-art MoE models, presenting a compelling alternative for efficient sparse computation.
- Abstract(参考訳): Mixture of Experts (MoE)モデルはパラメータのサブセットのみをアクティベートすることで顕著な効率を達成するが、推論時に高いメモリアクセスコストに悩まされる。
メモリ層アーキテクチャは、メモリアクセスがほとんどない魅力的な代替手段を提供するが、UltraMemのような以前の試みは、2-expert MoEモデルのパフォーマンスとしか一致せず、最先端の8-expert構成にかなり劣っている。
この性能ギャップを埋める再設計されたメモリ層アーキテクチャであるUltraMemV2を提案する。
提案手法では,各トランスブロックにメモリ層を統合すること,単一線形射影による値拡張を簡略化すること,PEERからFFNベースの値処理を採用すること,パラメータの初期化を原則として実装すること,メモリ-FFN計算比率を再バランスすること,の5つの改良点を紹介する。
広範囲な評価により,UltraMemV2 は 8-expert MoE モデルと同等の計算量とパラメータを持つが,メモリアクセスは著しく低いことを示す。
特にUltraMemV2は、長文記憶における+1.6点、多文記憶における+6.2点、文脈内学習における+7.9点など、メモリ集約タスクにおいて優れたパフォーマンスを示している。
120B の総パラメータから 2.5B の活性化パラメータをモデルとして,本手法を大規模に検証し,総スパースパラメータ数よりも活性化密度が性能に与える影響を確かめる。
我々の研究は、メモリ層アーキテクチャを最先端のMoEモデルと同等の性能をもたらし、効率的なスパース計算のための魅力的な代替手段を提供する。
関連論文リスト
- Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - S2A: A Unified Framework for Parameter and Memory Efficient Transfer Learning [8.602744958104969]
本研究では,微調整時の活性化のメモリフットプリントを低減するため,新しいPETLフレームワークであるStructure to Activation (S2A)を提案する。
具体的には,1)パラメトリックモデル構造におけるアクティベーションモジュールの設計(バイアス,プロンプト,サイドモジュール)からなり,パラメータやアクティベーションメモリの大幅な削減を実現している。
提案手法は既存のPETL技術よりも優れており,GPUメモリフットプリントの4倍の削減を実現しているだけでなく,可変パラメータの少ない精度で競合性能を示す。
論文 参考訳(メタデータ) (2025-03-11T08:10:03Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。
アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。
状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文 参考訳(メタデータ) (2024-12-02T06:57:46Z) - Ultra-Sparse Memory Network [8.927205198458994]
この研究はUltraMemを導入し、これらの制限に対処するために大規模な超スパースメモリ層を組み込んだ。
提案手法は,モデル性能を維持しながら推論遅延を大幅に低減する。
実験では、私たちがトレーニングする最大のUltraMemには2000万のメモリスロットがあります。
論文 参考訳(メタデータ) (2024-11-19T09:24:34Z) - MAMBA: Multi-level Aggregation via Memory Bank for Video Object
Detection [35.16197118579414]
我々は,MAMBAと呼ばれるメモリバンクを用いたマルチレベル集約アーキテクチャを提案する。
具体的には,既存の手法の欠点を解消するために,メモリバンクが2つの新しい操作を施している。
従来の最先端手法と比較して,提案手法は速度と精度の両面で優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-01-18T12:13:06Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。