論文の概要: Expansion Span: Combining Fading Memory and Retrieval in Hybrid State Space Models
- arxiv url: http://arxiv.org/abs/2412.13328v1
- Date: Tue, 17 Dec 2024 20:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:11.670766
- Title: Expansion Span: Combining Fading Memory and Retrieval in Hybrid State Space Models
- Title(参考訳): 拡張スパン:ハイブリッド状態空間モデルにおけるフェーディング記憶と検索の組み合わせ
- Authors: Elvis Nunez, Luca Zancato, Benjamin Bowman, Aditya Golatkar, Wei Xia, Stefano Soatto,
- Abstract要約: ハイブリッドアーキテクチャはステートスペースレイヤとアテンションを組み合わせたものだが、遠い過去を思い出すことはできない。
本研究では,過去から任意の距離から取得したトークンのアテンションコンテキストの一部を「保存」することにより,ハイブリッド状態のメモリ幅を拡大する手法について述べる。
また,SE-Attnにより,事前学習用モデルよりも最大8倍長のトークン列上で,事前学習型ハイブリッドモデルを効率的に適用できることを示す。
- 参考スコア(独自算出の注目度): 59.607021334350385
- License:
- Abstract: The "state" of State Space Models (SSMs) represents their memory, which fades exponentially over an unbounded span. By contrast, Attention-based models have "eidetic" (i.e., verbatim, or photographic) memory over a finite span (context size). Hybrid architectures combine State Space layers with Attention, but still cannot recall the distant past and can access only the most recent tokens eidetically. Unlike current methods of combining SSM and Attention layers, we allow the state to be allocated based on relevancy rather than recency. In this way, for every new set of query tokens, our models can "eidetically" access tokens from beyond the Attention span of current Hybrid SSMs without requiring extra hardware resources. We describe a method to expand the memory span of the hybrid state by "reserving" a fraction of the Attention context for tokens retrieved from arbitrarily distant in the past, thus expanding the eidetic memory span of the overall state. We call this reserved fraction of tokens the "expansion span," and the mechanism to retrieve and aggregate it "Span-Expanded Attention" (SE-Attn). To adapt Hybrid models to using SE-Attn, we propose a novel fine-tuning method that extends LoRA to Hybrid models (HyLoRA) and allows efficient adaptation on long spans of tokens. We show that SE-Attn enables us to efficiently adapt pre-trained Hybrid models on sequences of tokens up to 8 times longer than the ones used for pre-training. We show that HyLoRA with SE-Attn is cheaper and more performant than alternatives like LongLoRA when applied to Hybrid models on natural language benchmarks with long-range dependencies, such as PG-19, RULER, and other common natural language downstream tasks.
- Abstract(参考訳): ステート・スペース・モデル(SSM)の「状態」は、その記憶を表わし、非有界領域で指数関数的に消失する。
対照的に、注意に基づくモデルは有限のスパン(コンテキストサイズ)に「理想的(eidetic)」なメモリを持つ。
ハイブリッドアーキテクチャはステートスペースレイヤとアテンションを組み合わせたものだが、遠い過去を思い出すことはできない。
SSMとアテンションレイヤを組み合わせた現在の方法とは異なり、リレーレンシーではなく、関連性に基づいて状態を割り当てることができます。
このように、新しいクエリトークンの集合ごとに、我々のモデルは、ハードウェアリソースを余分に必要とせずに、現在のハイブリッドSSMのアテンション範囲を越えてアクセストークンを"理想的に"アクセスすることができる。
本研究では,過去から任意の距離から取得したトークンに対するアテンションコンテキストの一部を「保存」することにより,ハイブリッド状態のメモリスパンを拡大し,全体のメモリスパンを拡大する手法について述べる。
この限定されたトークンを"Expansion span"と呼び、それを取得して集約するメカニズムを"Span-Expanded Attention"(SE-Attn)と呼びます。
ハイブリッドモデルをSE-Attnに適応させるために,LoRAをHyLoRA(HyLoRA)に拡張し,トークンの長い範囲に効率的に適応できるファインチューニング手法を提案する。
また,SE-Attnにより,事前学習用モデルよりも最大8倍長のトークン列上で,事前学習型ハイブリッドモデルを効率的に適用できることを示す。
PG-19, RULERなどの長期依存を持つ自然言語ベンチマークのハイブリッドモデルに適用した場合, SE-Attn を用いた HyLoRA は,LongLoRA のような代替品よりも安価で高性能であることを示す。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - Hybrid State Space-based Learning for Sequential Data Prediction with
Joint Optimization [0.0]
本稿では,従来の非線形予測モデルにおいて,ドメイン固有の特徴工学的問題の必要性を緩和するハイブリッドモデルを提案する。
基本モデルに対する新しい状態空間表現を導入し、ハイブリッドやアンサンブルの完全な状態空間表現を提供する。
このような新しい組み合わせと共同最適化により、広く公開されている実生活競合データセットの大幅な改善が示された。
論文 参考訳(メタデータ) (2023-09-19T12:00:28Z) - Effectively Modeling Time Series with Simple Discrete State Spaces [25.046268609133982]
時系列モデリングのための新しい状態空間時系列アーキテクチャであるSpaceTimeを紹介する。
表現性を示すために,共役行列に基づく新しいSSMパラメータ化を提案する。
長期の地平線予測のために、同伴SSMの「閉ループ」変動を導入する。
効率的なトレーニングと推論のために,前列行列による前列パスのメモリと計算を削減できるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-03-16T17:08:21Z) - Long Range Language Modeling via Gated State Spaces [67.64091993846269]
本稿では,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点をあてる。
Gated State Space (GSS) と呼ばれる新しい層を提案し、S4の対角線よりもかなり高速に訓練可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T01:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。