Fugu-MT 論文翻訳(概要): MoM: Linear Sequence Modeling with Mixture-of-Memories

論文の概要: MoM: Linear Sequence Modeling with Mixture-of-Memories

arxiv url: http://arxiv.org/abs/2502.13685v1
Date: Wed, 19 Feb 2025 12:53:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.957191
Title: MoM: Linear Sequence Modeling with Mixture-of-Memories
Title（参考訳）: MoM:Mixture-of-Memoriesを用いた線形シーケンスモデリング
Authors: Jusen Du, Weigao Sun, Disen Lan, Jiaxi Hu, Yu Cheng,
Abstract要約: 我々はMixture-of-Memories (MoM)と呼ばれる新しいアーキテクチャを導入する。 MoMは複数の独立したメモリ状態を利用し、ルータネットワークは入力トークンを特定のメモリ状態に誘導する。 MoMは、既存の線形シーケンスモデリング技術を超え、リコール集約タスクにおいて非常によく機能する。
参考スコア（独自算出の注目度）: 9.665802842933209
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Linear sequence modeling methods, such as linear attention, state space modeling, and linear RNNs, offer significant efficiency improvements by reducing the complexity of training and inference. However, these methods typically compress the entire input sequence into a single fixed-size memory state, which leads to suboptimal performance on recall-intensive downstream tasks. Drawing inspiration from neuroscience, particularly the brain's ability to maintain robust long-term memory while mitigating "memory interference", we introduce a novel architecture called Mixture-of-Memories (MoM). MoM utilizes multiple independent memory states, with a router network directing input tokens to specific memory states. This approach greatly enhances the overall memory capacity while minimizing memory interference. As a result, MoM performs exceptionally well on recall-intensive tasks, surpassing existing linear sequence modeling techniques. Despite incorporating multiple memory states, the computation of each memory state remains linear in complexity, allowing MoM to retain the linear-complexity advantage during training, while constant-complexity during inference. Our experimental results show that MoM significantly outperforms current linear sequence models on downstream language tasks, particularly recall-intensive tasks, and even achieves performance comparable to Transformer models. The code is released at https://github.com/OpenSparseLLMs/MoM and is also released as a part of https://github.com/OpenSparseLLMs/Linear-MoE.
Abstract（参考訳）: リニアアテンション、状態空間モデリング、リニアRNNといった線形シーケンスモデリング手法は、トレーニングと推論の複雑さを減らし、大幅な効率の改善をもたらす。しかし、これらの手法は典型的には入力シーケンス全体を1つの固定サイズのメモリ状態に圧縮し、リコール集約の下流タスクにおいて最適なパフォーマンスをもたらす。神経科学、特に脳の長期記憶維持能力からインスピレーションを得た上で、「記憶干渉」を緩和し、Mixture-of-Memories (MoM)と呼ばれる新しいアーキテクチャを導入する。 MoMは複数の独立したメモリ状態を利用し、ルータネットワークは入力トークンを特定のメモリ状態に誘導する。このアプローチは、メモリ干渉を最小限にしながら、メモリ全体の容量を大幅に向上させる。その結果、MoMは既存の線形シーケンスモデリング手法を超越して、リコール集約タスクにおいて極めてよく機能する。複数のメモリ状態が組み込まれているにもかかわらず、各メモリ状態の計算は複雑で線形であり、MoMはトレーニング中に線形複雑性の優位性を保ちつつ、推論中に定数複雑性を維持することができる。実験の結果、MoMは下流言語タスク、特にリコール集約タスクにおいて、現在の線形列モデルよりも大幅に優れており、トランスフォーマーモデルに匹敵する性能も達成していることがわかった。コードはhttps://github.com/OpenSparseLLMs/MoMでリリースされ、https://github.com/OpenSparseLLMs/Linear-MoEの一部としてリリースされている。

関連論文リスト

Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2026-02-27T18:53:41Z)
CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling [40.705016911274]
本稿では,LLMがメモリ使用量と線形時間複雑度を一定に保ちながら任意の長いシーケンスを処理できる新しいアーキテクチャを提案する。 CoMeTは最小限の微調整で事前訓練されたモデルに統合できる。 CoMeTと32kコンテキストに微調整されたモデルでは、1Mトークンシーケンス内の任意の位置からパスキーを正確に取得することができる。
論文参考訳（メタデータ） (2026-02-02T07:49:44Z)
Parallelizable memory recurrent units [1.3159512679346688]
本稿では、非線形RNNの永続的メモリ能力とSSMの並列化計算を組み合わせたメモリリカレントユニット(MRU)を新たに導入する。 BMRUは長期依存型タスクにおいて良好な結果が得られ、状態空間モデルと組み合わせて並列化可能で過渡的ダイナミクスと永続メモリを備えたハイブリッドネットワークを構築することができることを示す。
論文参考訳（メタデータ） (2026-01-14T14:01:11Z)
mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling [0.5236468296934584]
mGRADEは、時間的1D-畳み込みと学習可能な間隔を統合したハイブリッドメモリシステムである。我々は,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを示した。これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
論文参考訳（メタデータ） (2025-07-02T15:44:35Z)
MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。 MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。 Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文参考訳（メタデータ） (2025-04-16T23:15:09Z)
Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。 MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。 huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文参考訳（メタデータ） (2024-07-22T01:52:30Z)
MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。 MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文参考訳（メタデータ） (2024-07-16T18:59:49Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
MSPipe: Efficient Temporal GNN Training via Staleness-Aware Pipeline [8.889825826072512]
メモリベースの時間グラフニューラルネットワーク(MTGNN)は、ノードメモリモジュールを使用して長期の時間依存を捕捉し保持する時間グラフニューラルネットワークのクラスである。トレーニングパラダイム、モデルアーキテクチャ、メモリモジュールの欠如などにより、既存の静的GNNの最適化はMTGNNに直接適用できない。モデル精度を維持しながらトレーニングスループットを最大化するMTGNNのための汎用的で効率的なフレームワークであるMSPipeを提案する。
論文参考訳（メタデータ） (2024-02-23T05:57:22Z)
CAMELoT: Towards Large Language Models with Training-Free Consolidated Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。 CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-21T01:00:17Z)
Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文参考訳（メタデータ） (2023-06-15T19:29:08Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。 LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文参考訳（メタデータ） (2022-04-15T06:11:25Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。