論文の概要: B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory
- arxiv url: http://arxiv.org/abs/2407.06324v1
- Date: Mon, 8 Jul 2024 18:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 22:03:20.933756
- Title: B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory
- Title(参考訳): B'MOJO: 理想と偽りの記憶を持つ基礎モデルのハイブリッドステートスペース実現
- Authors: Luca Zancato, Arjun Seshadri, Yonatan Dukler, Aditya Golatkar, Yantao Shen, Benjamin Bowman, Matthew Trager, Alessandro Achille, Stefano Soatto,
- Abstract要約: 我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
- 参考スコア(独自算出の注目度): 91.81390121042192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe a family of architectures to support transductive inference by allowing memory to grow to a finite but a-priori unknown bound while making efficient use of finite resources for inference. Current architectures use such resources to represent data either eidetically over a finite span ("context" in Transformers), or fading over an infinite span (in State Space Models, or SSMs). Recent hybrid architectures have combined eidetic and fading memory, but with limitations that do not allow the designer or the learning process to seamlessly modulate the two, nor to extend the eidetic memory span. We leverage ideas from Stochastic Realization Theory to develop a class of models called B'MOJO to seamlessly combine eidetic and fading memory within an elementary composable module. The overall architecture can be used to implement models that can access short-term eidetic memory "in-context," permanent structural memory "in-weights," fading memory "in-state," and long-term eidetic memory "in-storage" by natively incorporating retrieval from an asynchronously updated memory. We show that Transformers, existing SSMs such as Mamba, and hybrid architectures such as Jamba are special cases of B'MOJO and describe a basic implementation, to be open sourced, that can be stacked and scaled efficiently in hardware. We test B'MOJO on transductive inference tasks, such as associative recall, where it outperforms existing SSMs and Hybrid models; as a baseline, we test ordinary language modeling where B'MOJO achieves perplexity comparable to similarly-sized Transformers and SSMs up to 1.4B parameters, while being up to 10% faster to train. Finally, we show that B'MOJO's ability to modulate eidetic and fading memory results in better inference on longer sequences tested up to 32K tokens, four-fold the length of the longest sequences seen during training.
- Abstract(参考訳): 本稿では, 有限資源を効率的に利用しながら, メモリを有限だが未知境界に成長させることにより, トランスダクティブ推論を支援するアーキテクチャのファミリについて述べる。
現在のアーキテクチャではそのようなリソースを使用して、有限スパン上のデータを理想的に表現する(Transformersではcontext)か、無限スパン(State Space Models、SSMs)で消える。
最近のハイブリッドアーキテクチャでは、イデオティックメモリとフェードメモリを組み合わせているが、デザイナや学習プロセスが2つをシームレスに変調したり、イデオティックメモリを拡張したりできない制限がある。
確率的実現理論(Stochastic Realization Theory)のアイデアを活用し、B'MOJOと呼ばれるモデルのクラスを開発し、基本的な構成可能なモジュール内で、理想的および暗黙的メモリをシームレスに結合する。
全体的なアーキテクチャは、非同期に更新されたメモリからの検索をネイティブに組み込むことで、短期のイデオロギーメモリ("in-context")、永続的な構造記憶("in-weights")、消失するメモリ("in-state")、長期のイデオロギーメモリ("in-storage")にアクセスできるモデルを実装するために使用することができる。
我々は、トランスフォーマー、Mambaのような既存のSSM、JambaのようなハイブリッドアーキテクチャがB'MOJOの特殊なケースであり、オープンソースで実装される基本実装を記述し、ハードウェアで効率的に積み重ね、拡張可能であることを示す。
ベースラインとして、B'MOJOが同等の大きさのトランスフォーマーやSSMに匹敵する難易度を最大1.4Bのパラメータで達成し、トレーニング速度が最大10%向上する通常の言語モデルをテストする。
最後に,B'MOJOのイデオティックメモリとフェードメモリを変調する能力は,32Kトークンでテストされた長いシーケンスに対して,トレーニング中に見られる最長シーケンスの長さの4倍の精度で推論できることを示す。
関連論文リスト
- MoM: Linear Sequence Modeling with Mixture-of-Memories [9.665802842933209]
我々はMixture-of-Memories (MoM)と呼ばれる新しいアーキテクチャを導入する。
MoMは複数の独立したメモリ状態を利用し、ルータネットワークは入力トークンを特定のメモリ状態に誘導する。
MoMは、既存の線形シーケンスモデリング技術を超え、リコール集約タスクにおいて非常によく機能する。
論文 参考訳(メタデータ) (2025-02-19T12:53:55Z) - Expansion Span: Combining Fading Memory and Retrieval in Hybrid State Space Models [59.607021334350385]
ハイブリッドアーキテクチャはステートスペースレイヤとアテンションを組み合わせたものだが、遠い過去を思い出すことはできない。
本研究では,過去から任意の距離から取得したトークンのアテンションコンテキストの一部を「保存」することにより,ハイブリッド状態のメモリ幅を拡大する手法について述べる。
また,SE-Attnにより,事前学習用モデルよりも最大8倍長のトークン列上で,事前学習型ハイブリッドモデルを効率的に適用できることを示す。
論文 参考訳(メタデータ) (2024-12-17T20:55:42Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。
ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。
ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文 参考訳(メタデータ) (2021-02-15T18:59:07Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。