論文の概要: Gated Slot Attention for Efficient Linear-Time Sequence Modeling
- arxiv url: http://arxiv.org/abs/2409.07146v1
- Date: Wed, 11 Sep 2024 09:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:02:58.607830
- Title: Gated Slot Attention for Efficient Linear-Time Sequence Modeling
- Title(参考訳): 効率的な線形時間列モデリングのためのGated Slot Attention
- Authors: Yu Zhang, Songlin Yang, Ruijie Zhu, Yue Zhang, Leyang Cui, Yiqiao Wang, Bolun Wang, Freda Shi, Bailin Wang, Wei Bi, Peng Zhou, Guohong Fu,
- Abstract要約: Gated Slot Attention(GSA)は境界メモリ・コントロル(ABC)による注意を高める
本稿では,境界メモリ・コントロル(ABC)による注意を高めるGSAを紹介する。
- 参考スコア(独自算出の注目度): 59.019501274074564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention Transformers and their gated variants, celebrated for enabling parallel training and efficient recurrent inference, still fall short in recall-intensive tasks compared to traditional Transformers and demand significant resources for training from scratch. This paper introduces Gated Slot Attention (GSA), which enhances Attention with Bounded-memory-Control (ABC) by incorporating a gating mechanism inspired by Gated Linear Attention (GLA). Essentially, GSA comprises a two-layer GLA linked via softmax, utilizing context-aware memory reading and adaptive forgetting to improve memory capacity while maintaining compact recurrent state size. This design greatly enhances both training and inference efficiency through GLA's hardware-efficient training algorithm and reduced state size. Additionally, retaining the softmax operation is particularly beneficial in "finetuning pretrained Transformers to RNNs" (T2R) settings, reducing the need for extensive training from scratch. Extensive experiments confirm GSA's superior performance in scenarios requiring in-context recall and in T2R settings.
- Abstract(参考訳): 並列トレーニングと効率的なリカレント推論を可能にすることで知られる線形アテンショントランスフォーマーとそのゲート変種は、従来のトランスフォーマーと比較してリコール集約タスクでは依然として不足しており、スクラッチからトレーニングするための重要なリソースを必要としている。
本稿では, Gated Linear Attention (GLA) にインスパイアされたゲーティング機構を組み込むことで, 境界メモリ-Control (ABC) による注意を高めた Gated Slot Attention (GSA) を提案する。
基本的に、GSAは、ソフトマックスを介してリンクされた2層GLAを備え、コンテクスト対応メモリ読み取りと適応記憶を利用して、コンパクトなリカレント状態サイズを維持しながら、メモリ容量を改善する。
この設計により、GLAのハードウェア効率のトレーニングアルゴリズムによるトレーニングと推論の効率が大幅に向上し、状態サイズが削減される。
さらに、ソフトマックス操作を維持することは、特に「訓練済みのトランスフォーマーをRNNに微調整する」(T2R)設定で有益であり、スクラッチから広範囲のトレーニングを行う必要がなくなる。
大規模な実験により、コンテキスト内リコールとT2R設定を必要とするシナリオにおいて、GSAの優れたパフォーマンスが確認された。
関連論文リスト
- Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。
本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:01:13Z) - Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models [0.755189019348525]
自己注意によって駆動されるトランスフォーマーネットワークは、大規模言語モデルの中心である。
生成トランスフォーマーでは、自己アテンションはキャッシュメモリを使用してトークンプロジェクションを格納し、各ステップで再計算を避ける。
本稿では、ゲインセルと呼ばれる新しいチャージベースのメモリをベースとした、独自の自己アテンションインメモリコンピューティングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-28T11:00:11Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Dynamic Stashing Quantization for Efficient Transformer Training [4.930533932212726]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて、印象的なパフォーマンスを示している。
LLMトレーニングに必要な膨大な計算量とメモリアクセスは、ハードウェアコストの点で極めて高価である。
本稿では,動的スタッシング量子化(DSQ)と呼ばれる新しい動的量子化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-09T14:44:31Z) - LSG Attention: Extrapolation of pretrained Transformers to long
sequences [0.0]
ローカル・スパース・グローバル・アテンションに依存したLSGアーキテクチャを導入する。
長文の分類と要約作業においてLSGの注意は高速で効率的で競争力があることを示す。
我々は新しいモデルをトレーニングし、このメカニズムに基づいて既存のモデルを適応するためのツールを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:10:41Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。