Fugu-MT 論文翻訳(概要): LM2: Large Memory Models

論文の概要: LM2: Large Memory Models

arxiv url: http://arxiv.org/abs/2502.06049v1
Date: Sun, 09 Feb 2025 22:11:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:50.622776
Title: LM2: Large Memory Models
Title（参考訳）: LM2: 大規模なメモリモデル
Authors: Jikun Kang, Wenqi Wu, Filippos Christianos, Alex J. Chan, Fraser Greenlee, George Thomas, Marvin Purtorab, Andy Toulis,
Abstract要約: 本稿では,補助メモリモジュールで拡張されたデコーダのみのトランスフォーマーアーキテクチャであるLarge Memory Model (LM2)を紹介する。 BABILongベンチマークの実験結果によると、LM2モデルはメモリ拡張RTTモデルとベースラインのLlama-3.2モデルの両方を平均86.3%上回っている。
参考スコア（独自算出の注目度）: 11.320069795732058
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces the Large Memory Model (LM2), a decoder-only Transformer architecture enhanced with an auxiliary memory module that aims to address the limitations of standard Transformers in multi-step reasoning, relational argumentation, and synthesizing information distributed over long contexts. The proposed LM2 incorporates a memory module that acts as a contextual representation repository, interacting with input tokens via cross attention and updating through gating mechanisms. To preserve the Transformers general-purpose capabilities, LM2 maintains the original information flow while integrating a complementary memory pathway. Experimental results on the BABILong benchmark demonstrate that the LM2model outperforms both the memory-augmented RMT model by 37.1% and the baseline Llama-3.2 model by 86.3% on average across tasks. LM2 exhibits exceptional capabilities in multi-hop inference, numerical reasoning, and large-context question-answering. On the MMLU dataset, it achieves a 5.0% improvement over a pre-trained vanilla model, demonstrating that its memory module does not degrade performance on general tasks. Further, in our analysis, we explore the memory interpretability, effectiveness of memory modules, and test-time behavior. Our findings emphasize the importance of explicit memory in enhancing Transformer architectures.
Abstract（参考訳）: 本稿では,多段階の推論,関係論,長いコンテキストに分散した情報の合成において,標準トランスフォーマーの限界に対処することを目的とした,デコーダのみのトランスフォーマーアーキテクチャであるLarge Memory Model (LM2)を紹介する。提案するLM2は、コンテキスト表現レポジトリとして機能し、クロスアテンションを介して入力トークンと対話し、ゲーティング機構を通じて更新するメモリモジュールを備えている。 Transformersの汎用機能を維持するため、LM2は補完的なメモリパスを統合しながら、元の情報フローを維持している。 BABILongベンチマークの実験結果によると、LM2モデルはメモリ拡張RTTモデルとベースラインのLlama-3.2モデルの両方を平均86.3%上回っている。 LM2は、マルチホップ推論、数値推論、大文質問応答において例外的な機能を示す。 MMLUデータセットでは、トレーニング済みのバニラモデルよりも5.0%向上し、メモリモジュールが一般的なタスクのパフォーマンスを劣化させないことを示した。さらに,本研究では,メモリの解釈可能性,メモリモジュールの有効性,テスト時の動作について検討する。本研究は,トランスフォーマーアーキテクチャの強化における明示的メモリの重要性を強調した。

関連論文リスト

R$^3$Mem: Bridging Memory Retention and Retrieval via Reversible Compression [24.825945729508682]
情報保持と検索の両方を最適化するメモリネットワークであるR$3$Memを提案する。 R$3$Memは、仮想メモリトークンを使用して無限に長い履歴を圧縮およびエンコードし、階層的な圧縮戦略によってさらに強化される。実験により,長文言語モデリングおよび検索強化生成タスクにおいて,メモリ設計が最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-02-21T21:39:00Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。 MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。 MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文参考訳（メタデータ） (2024-07-09T08:50:18Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
MEMORYLLM: Towards Self-Updatable Large Language Models [101.3777486749529]
既存のLarge Language Models (LLM) は通常、デプロイ後も静的のままである。本稿では,変圧器と固定サイズのメモリプールを備えたモデルMEMORYLLMを紹介する。 MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
論文参考訳（メタデータ） (2024-02-07T07:14:11Z)
RCMHA: Relative Convolutional Multi-Head Attention for Natural Language Modelling [0.0]
相対的マルチヘッドアテンション(RMHA)は、他のアテンションモジュールと比較して0.572のスコアを持つ。 RMHAは、3.5GBを必要とするRMHAを上回り、平均2.98GBの消費を誇っている。
論文参考訳（メタデータ） (2023-08-07T09:24:24Z)
Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文参考訳（メタデータ） (2023-06-15T19:29:08Z)
Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。 MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文参考訳（メタデータ） (2022-01-03T02:32:06Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)
Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文参考訳（メタデータ） (2020-06-20T09:06:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。