Fugu-MT 論文翻訳(概要): Gated Slot Attention for Efficient Linear-Time Sequence Modeling

論文の概要: Gated Slot Attention for Efficient Linear-Time Sequence Modeling

arxiv url: http://arxiv.org/abs/2409.07146v2
Date: Thu, 31 Oct 2024 13:54:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 21:53:46.367698
Title: Gated Slot Attention for Efficient Linear-Time Sequence Modeling
Title（参考訳）: 効率的な線形時間列モデリングのためのGated Slot Attention
Authors: Yu Zhang, Songlin Yang, Ruijie Zhu, Yue Zhang, Leyang Cui, Yiqiao Wang, Bolun Wang, Freda Shi, Bailin Wang, Wei Bi, Peng Zhou, Guohong Fu,
Abstract要約: Gated Slot Attention(GSA)は境界メモリ・コントロル(ABC)による注意を高める GSAはGated Linear Attention (GLA)にインスパイアされたゲーティング機構を組み込んでいる
参考スコア（独自算出の注目度）: 59.019501274074564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Linear attention Transformers and their gated variants, celebrated for enabling parallel training and efficient recurrent inference, still fall short in recall-intensive tasks compared to traditional Transformers and demand significant resources for training from scratch. This paper introduces Gated Slot Attention (GSA), which enhances Attention with Bounded-memory-Control (ABC) by incorporating a gating mechanism inspired by Gated Linear Attention (GLA). Essentially, GSA comprises a two-layer GLA linked via $\operatorname{softmax}$, utilizing context-aware memory reading and adaptive forgetting to improve memory capacity while maintaining compact recurrent state size. This design greatly enhances both training and inference efficiency through GLA's hardware-efficient training algorithm and reduced state size. Additionally, retaining the $\operatorname{softmax}$ operation is particularly beneficial in "finetuning pretrained Transformers to RNNs" (T2R) settings, reducing the need for extensive training from scratch. Extensive experiments confirm GSA's superior performance in scenarios requiring in-context recall and in T2R settings.
Abstract（参考訳）: 並列トレーニングと効率的なリカレント推論を可能にすることで知られる線形アテンショントランスフォーマーとそのゲート変種は、従来のトランスフォーマーと比較してリコール集約タスクでは依然として不足しており、スクラッチからトレーニングするための重要なリソースを必要としている。本稿では, Gated Linear Attention (GLA) にインスパイアされたゲーティング機構を組み込むことで, 境界メモリ-Control (ABC) による注意を高めた Gated Slot Attention (GSA) を提案する。基本的には、GSAは$\operatorname{softmax}$でリンクされた2層GLAで構成され、コンテクスト対応メモリ読み取りとアダプティブ・リフレクションを利用してメモリ容量を向上し、コンパクトなリカレント状態サイズを維持しながら、メモリ容量を向上する。この設計により、GLAのハードウェア効率のトレーニングアルゴリズムによるトレーニングと推論の効率が大幅に向上し、状態サイズが削減される。さらに、$\operatorname{softmax}$操作を維持することは、特に"事前訓練されたトランスフォーマーをRNNに微調整する"(T2R)設定で有益である。大規模な実験により、コンテキスト内リコールとT2R設定を必要とするシナリオにおいて、GSAの優れたパフォーマンスが確認された。

関連論文リスト

Spark Transformer: Reactivating Sparsity in FFN and Attention [63.20677098823873]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文参考訳（メタデータ） (2025-06-07T03:51:13Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers [18.469378618426294]
本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
論文参考訳（メタデータ） (2025-02-03T19:24:01Z)
No More Adam: Learning Rate Scaling at Initialization is All You Need [13.892699813809857]
SGD-SaIは運動量による勾配降下(SGDM)の簡易かつ効果的な増強である適応的な2階運動量に頼ることなく学習率を調整することで、SGD-SaIはトレーニングの不均衡を第1段階から防ぐことができる。その単純さと効率にもかかわらず、SGD-SaIは様々なトランスフォーマーベースのタスクのトレーニングにおいて、AdamWと一貫して一致し、より優れています。
論文参考訳（メタデータ） (2024-12-16T13:41:37Z)
BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。 BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。 EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文参考訳（メタデータ） (2024-12-06T17:58:14Z)
Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文参考訳（メタデータ） (2024-11-01T21:01:13Z)
Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models [0.755189019348525]
自己注意によって駆動されるトランスフォーマーネットワークは、大規模言語モデルの中心である。生成トランスフォーマーでは、自己アテンションはキャッシュメモリを使用してトークンプロジェクションを格納し、各ステップで再計算を避ける。本稿では、ゲインセルと呼ばれる新しいチャージベースのメモリをベースとした、独自の自己アテンションインメモリコンピューティングアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-09-28T11:00:11Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文参考訳（メタデータ） (2024-06-10T17:24:42Z)
Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文参考訳（メタデータ） (2023-05-30T19:25:51Z)
Dynamic Stashing Quantization for Efficient Transformer Training [4.930533932212726]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて、印象的なパフォーマンスを示している。 LLMトレーニングに必要な膨大な計算量とメモリアクセスは、ハードウェアコストの点で極めて高価である。本稿では,動的スタッシング量子化(DSQ)と呼ばれる新しい動的量子化戦略を提案する。
論文参考訳（メタデータ） (2023-03-09T14:44:31Z)
LSG Attention: Extrapolation of pretrained Transformers to long sequences [0.0]
ローカル・スパース・グローバル・アテンションに依存したLSGアーキテクチャを導入する。長文の分類と要約作業においてLSGの注意は高速で効率的で競争力があることを示す。我々は新しいモデルをトレーニングし、このメカニズムに基づいて既存のモデルを適応するためのツールを提案する。
論文参考訳（メタデータ） (2022-10-13T13:10:41Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。 We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。 SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文参考訳（メタデータ） (2021-01-04T18:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。