論文の概要: Momentum Transformer: Closing the Performance Gap Between Self-attention
and Its Linearization
- arxiv url: http://arxiv.org/abs/2208.00579v1
- Date: Mon, 1 Aug 2022 02:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:57:26.365669
- Title: Momentum Transformer: Closing the Performance Gap Between Self-attention
and Its Linearization
- Title(参考訳): 運動量変換器:自己着脱と線形化との間の性能ギャップを閉じる
- Authors: Tan Nguyen and Richard G. Baraniuk and Robert M. Kirby and Stanley J.
Osher and Bao Wang
- Abstract要約: 効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。
まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。
次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
- 参考スコア(独自算出の注目度): 31.28396970291575
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Transformers have achieved remarkable success in sequence modeling and beyond
but suffer from quadratic computational and memory complexities with respect to
the length of the input sequence. Leveraging techniques include sparse and
linear attention and hashing tricks; efficient transformers have been proposed
to reduce the quadratic complexity of transformers but significantly degrade
the accuracy. In response, we first interpret the linear attention and residual
connections in computing the attention map as gradient descent steps. We then
introduce momentum into these components and propose the \emph{momentum
transformer}, which utilizes momentum to improve the accuracy of linear
transformers while maintaining linear memory and computational complexities.
Furthermore, we develop an adaptive strategy to compute the momentum value for
our model based on the optimal momentum for quadratic optimization. This
adaptive momentum eliminates the need to search for the optimal momentum value
and further enhances the performance of the momentum transformer. A range of
experiments on both autoregressive and non-autoregressive tasks, including
image generation and machine translation, demonstrate that the momentum
transformer outperforms popular linear transformers in training efficiency and
accuracy.
- Abstract(参考訳): トランスフォーマーはシーケンシャルモデリングとそれ以上で顕著な成功を収めてきたが、入力シーケンスの長さに関して二次計算とメモリの複雑さに苦しめられている。
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。
そこで,我々はまず,アテンションマップを勾配降下ステップとして計算し,リニアアテンションと残差接続を解釈した。
次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させる運動量を利用する「emph{momentum transformer}」を提案する。
さらに,2次最適化のための最適運動量に基づいて,モデルの運動量値を計算する適応戦略を開発した。
この適応運動量は最適運動量値の探索を不要とし、さらに運動量変換器の性能を向上させる。
画像生成や機械翻訳を含む自己回帰的および非自己回帰的タスクに関する実験は、運動量変換器が訓練効率と精度において一般的な線形変換器より優れていることを示した。
関連論文リスト
- Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - Linear attention is (maybe) all you need (to understand transformer
optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。
最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文 参考訳(メタデータ) (2023-10-02T10:48:42Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。