論文の概要: Memory Mosaics at scale
- arxiv url: http://arxiv.org/abs/2507.03285v1
- Date: Fri, 04 Jul 2025 04:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.656325
- Title: Memory Mosaics at scale
- Title(参考訳): メモリモザイクの大規模化
- Authors: Jianyu Zhang, Léon Bottou,
- Abstract要約: メモリモザイクは中規模ネットワーク上でのコンポジションとインコンテキストの学習能力をアピールしている。
メモリモザイクを10Bサイズにスケールし、1兆トークンでトレーニングし、3つの評価次元でそれらの能力を評価する。
1兆のトークンで訓練されたメモリモザイクv2は、8兆のトークンで訓練されたトランスフォーマーよりも、これらのタスクで優れたパフォーマンスを保っている。
- 参考スコア(独自算出の注目度): 12.081782559668946
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Memory Mosaics [Zhang et al., 2025], networks of associative memories, have demonstrated appealing compositional and in-context learning capabilities on medium-scale networks (GPT-2 scale) and synthetic small datasets. This work shows that these favorable properties remain when we scale memory mosaics to large language model sizes (llama-8B scale) and real-world datasets. To this end, we scale memory mosaics to 10B size, we train them on one trillion tokens, we introduce a couple architectural modifications ("Memory Mosaics v2"), we assess their capabilities across three evaluation dimensions: training-knowledge storage, new-knowledge storage, and in-context learning. Throughout the evaluation, memory mosaics v2 match transformers on the learning of training knowledge (first dimension) and significantly outperforms transformers on carrying out new tasks at inference time (second and third dimensions). These improvements cannot be easily replicated by simply increasing the training data for transformers. A memory mosaics v2 trained on one trillion tokens still perform better on these tasks than a transformer trained on eight trillion tokens.
- Abstract(参考訳): 連想記憶のネットワークであるメモリモザイク [Zhang et al , 2025] は, 中規模ネットワーク(GPT-2スケール)や合成小データセット上で, 合成・文脈学習能力に有益であることを示した。
この研究は、メモリモザイクを大規模な言語モデルサイズ(llama-8Bスケール)や実世界のデータセットにスケールする場合、これらの望ましい性質が残っていることを示している。
この目的のために、メモリモザイクを10Bサイズにスケールし、1兆トークンでトレーニングし、いくつかのアーキテクチャ変更("Memory Mosaics v2")を導入し、トレーニング知識ストレージ、新しい知識ストレージ、コンテキスト内学習という3つの評価次元でそれらの能力を評価する。
評価を通じて、メモリモザイクv2は、トレーニング知識(第1次元)の学習においてトランスフォーマーにマッチし、推論時間(第2次元と第3次元)で新しいタスクを実行する上で、トランスフォーマーを著しく上回る。
これらの改善は、変圧器のトレーニングデータを単純に増やすことで容易に複製できない。
1兆のトークンでトレーニングされたメモリモザイクv2は、8兆のトークンでトレーニングされたトランスフォーマーよりも、これらのタスクで優れたパフォーマンスを保っています。
関連論文リスト
- ATLAS: Learning to Optimally Memorize the Context at Test Time [31.41718170413687]
ATLASは、コンテキストを記憶する能力の高い長期記憶モジュールである。
本稿では,従来のトランスフォーマーアーキテクチャの厳密な一般化であるDeep Transformerと呼ばれる,トランスフォーマーライクなアーキテクチャの新たなファミリーを紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:57:16Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - Memory Mosaics [16.93648202185497]
トランスと同様に、メモリモザイクは構成能力とコンテキスト内学習能力を持っている。
これらの機能をおもちゃの例で説明し、中規模言語モデリングタスクにおけるトランスフォーマーよりもメモリモザイクが優れていることを示す。
論文 参考訳(メタデータ) (2024-05-10T11:08:20Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。