論文の概要: Gated Slot Attention for Efficient Linear-Time Sequence Modeling
- arxiv url: http://arxiv.org/abs/2409.07146v2
- Date: Thu, 31 Oct 2024 13:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 21:53:46.367698
- Title: Gated Slot Attention for Efficient Linear-Time Sequence Modeling
- Title(参考訳): 効率的な線形時間列モデリングのためのGated Slot Attention
- Authors: Yu Zhang, Songlin Yang, Ruijie Zhu, Yue Zhang, Leyang Cui, Yiqiao Wang, Bolun Wang, Freda Shi, Bailin Wang, Wei Bi, Peng Zhou, Guohong Fu,
- Abstract要約: Gated Slot Attention(GSA)は境界メモリ・コントロル(ABC)による注意を高める
GSAはGated Linear Attention (GLA)にインスパイアされたゲーティング機構を組み込んでいる
- 参考スコア(独自算出の注目度): 59.019501274074564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention Transformers and their gated variants, celebrated for enabling parallel training and efficient recurrent inference, still fall short in recall-intensive tasks compared to traditional Transformers and demand significant resources for training from scratch. This paper introduces Gated Slot Attention (GSA), which enhances Attention with Bounded-memory-Control (ABC) by incorporating a gating mechanism inspired by Gated Linear Attention (GLA). Essentially, GSA comprises a two-layer GLA linked via $\operatorname{softmax}$, utilizing context-aware memory reading and adaptive forgetting to improve memory capacity while maintaining compact recurrent state size. This design greatly enhances both training and inference efficiency through GLA's hardware-efficient training algorithm and reduced state size. Additionally, retaining the $\operatorname{softmax}$ operation is particularly beneficial in "finetuning pretrained Transformers to RNNs" (T2R) settings, reducing the need for extensive training from scratch. Extensive experiments confirm GSA's superior performance in scenarios requiring in-context recall and in T2R settings.
- Abstract(参考訳): 並列トレーニングと効率的なリカレント推論を可能にすることで知られる線形アテンショントランスフォーマーとそのゲート変種は、従来のトランスフォーマーと比較してリコール集約タスクでは依然として不足しており、スクラッチからトレーニングするための重要なリソースを必要としている。
本稿では, Gated Linear Attention (GLA) にインスパイアされたゲーティング機構を組み込むことで, 境界メモリ-Control (ABC) による注意を高めた Gated Slot Attention (GSA) を提案する。
基本的には、GSAは$\operatorname{softmax}$でリンクされた2層GLAで構成され、コンテクスト対応メモリ読み取りとアダプティブ・リフレクションを利用してメモリ容量を向上し、コンパクトなリカレント状態サイズを維持しながら、メモリ容量を向上する。
この設計により、GLAのハードウェア効率のトレーニングアルゴリズムによるトレーニングと推論の効率が大幅に向上し、状態サイズが削減される。
さらに、$\operatorname{softmax}$操作を維持することは、特に"事前訓練されたトランスフォーマーをRNNに微調整する"(T2R)設定で有益である。
大規模な実験により、コンテキスト内リコールとT2R設定を必要とするシナリオにおいて、GSAの優れたパフォーマンスが確認された。
関連論文リスト
- Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers [18.469378618426294]
本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。
我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
論文 参考訳(メタデータ) (2025-02-03T19:24:01Z) - No More Adam: Learning Rate Scaling at Initialization is All You Need [13.892699813809857]
SGD-SaIは運動量による勾配降下(SGDM)の簡易かつ効果的な増強である
適応的な2階運動量に頼ることなく学習率を調整することで、SGD-SaIはトレーニングの不均衡を第1段階から防ぐことができる。
その単純さと効率にもかかわらず、SGD-SaIは様々なトランスフォーマーベースのタスクのトレーニングにおいて、AdamWと一貫して一致し、より優れています。
論文 参考訳(メタデータ) (2024-12-16T13:41:37Z) - Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。
本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:01:13Z) - Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models [0.755189019348525]
自己注意によって駆動されるトランスフォーマーネットワークは、大規模言語モデルの中心である。
生成トランスフォーマーでは、自己アテンションはキャッシュメモリを使用してトークンプロジェクションを格納し、各ステップで再計算を避ける。
本稿では、ゲインセルと呼ばれる新しいチャージベースのメモリをベースとした、独自の自己アテンションインメモリコンピューティングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-28T11:00:11Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。