論文の概要: Blending Complementary Memory Systems in Hybrid Quadratic-Linear Transformers
- arxiv url: http://arxiv.org/abs/2506.00744v1
- Date: Sat, 31 May 2025 23:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.514067
- Title: Blending Complementary Memory Systems in Hybrid Quadratic-Linear Transformers
- Title(参考訳): ハイブリッド準線形変圧器の曲げ補完記憶システム
- Authors: Kazuki Irie, Morris Yau, Samuel J. Gershman,
- Abstract要約: 汎用シーケンス処理ニューラルネットワークのためのハイブリッドメモリアーキテクチャを開発した。
高速プログラミング(FWメモリ)により,キー値メモリをソフトマックスアテンション(KVメモリ)と動的シナプスメモリと組み合わせる。
我々は、よく設計されたハイブリッドが、個々のコンポーネントの制限を克服できることを示す。
- 参考スコア(独自算出の注目度): 14.130531534945577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop hybrid memory architectures for general-purpose sequence processing neural networks, that combine key-value memory using softmax attention (KV-memory) with dynamic synaptic memory through fast-weight programming (FW-memory) -- the core principles of quadratic and linear transformers, respectively. These two memory systems have complementary but individually limited properties: KV-memory offers precise retrieval but is constrained by quadratic complexity in sequence length, while FW-memory supports arbitrarily long sequences and enables more expressive computation but sacrifices precise recall. We propose and compare three methods to blend these two systems into a single memory system to leverage the strengths of both. We conduct experiments on general language modeling and retrieval tasks by training 340M- and 1.3B-parameter models from scratch, as well as on synthetic algorithmic tasks designed to precisely illustrate the benefits of certain hybrid methods over others. We also evaluate our hybrid memory systems on reinforcement learning in partially observable environments. Overall, we demonstrate how a well-designed hybrid can overcome the limitations of its individual components, offering new insights into the design principle of neural memory systems.
- Abstract(参考訳): 汎用シーケンス処理ニューラルネットワークのためのハイブリッドメモリアーキテクチャを開発し、ソフトマックスアテンション(KVメモリ)と動的シナプスメモリ(FWメモリ)を組み合わせる。
KVメモリは正確な検索を提供するが、シーケンス長の2次複雑さによって制約される一方、FWメモリは任意の長いシーケンスをサポートし、より表現力のある計算を可能にするが、正確なリコールを犠牲にする。
両システムの強みを活かすために,これら2つのシステムを1つのメモリシステムにブレンドする3つの手法を提案し,比較する。
我々は340Mと1.3Bのパラメータモデルをスクラッチからトレーニングし、特定のハイブリッド手法の利点を正確に説明するために設計された合成アルゴリズムタスクについて実験を行った。
また,部分観測可能な環境下での強化学習におけるハイブリッドメモリシステムの評価を行った。
全体として、よく設計されたハイブリッドは、個々のコンポーネントの制限を克服し、ニューラルメモリシステムの設計原理に関する新たな洞察を提供する。
関連論文リスト
- Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Universal Hopfield Networks: A General Framework for Single-Shot
Associative Memory Models [41.58529335439799]
本稿では,メモリネットワークの動作を3つの操作のシーケンスとして理解するための一般的なフレームワークを提案する。
これらのメモリモデルはすべて、類似性と分離関数が異なる一般的なフレームワークのインスタンスとして導出します。
論文 参考訳(メタデータ) (2022-02-09T16:48:06Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Robust High-dimensional Memory-augmented Neural Networks [13.82206983716435]
メモリ拡張ニューラルネットワークは、これらの問題を克服するために、明示的なメモリでニューラルネットワークを強化する。
この明示的なメモリへのアクセスは、各個々のメモリエントリを含むソフト読み取りおよび書き込み操作を介して行われる。
本稿では,高次元(HD)ベクトル上でのアナログインメモリ計算を行う明示メモリとして,計算メモリユニットを用いた頑健なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-05T12:01:56Z) - Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。
機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2020-02-10T03:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。