論文の概要: LSG Attention: Extrapolation of pretrained Transformers to long
sequences
- arxiv url: http://arxiv.org/abs/2210.15497v1
- Date: Thu, 13 Oct 2022 13:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 12:12:12.289190
- Title: LSG Attention: Extrapolation of pretrained Transformers to long
sequences
- Title(参考訳): LSG注意:長い配列への事前学習トランスフォーマーの外挿
- Authors: Charles Condevaux and S\'ebastien Harispe
- Abstract要約: ローカル・スパース・グローバル・アテンションに依存したLSGアーキテクチャを導入する。
長文の分類と要約作業においてLSGの注意は高速で効率的で競争力があることを示す。
我々は新しいモデルをトレーニングし、このメカニズムに基づいて既存のモデルを適応するためのツールを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models achieve state-of-the-art performance on a wide range of
NLP tasks. They however suffer from a prohibitive limitation due to the
self-attention mechanism, inducing $O(n^2)$ complexity with regard to sequence
length. To answer this limitation we introduce the LSG architecture which
relies on Local, Sparse and Global attention. We show that LSG attention is
fast, efficient and competitive in classification and summarization tasks on
long documents. Interestingly, it can also be used to adapt existing pretrained
models to efficiently extrapolate to longer sequences with no additional
training. Along with the introduction of the LSG attention mechanism, we
propose tools to train new models and adapt existing ones based on this
mechanism.
- Abstract(参考訳): トランスフォーマーモデルは、幅広いNLPタスクにおいて最先端のパフォーマンスを達成する。
しかし、それらは自己アテンション機構によって禁止的な制限に悩まされ、配列長に関して$O(n^2)$複雑さを引き起こす。
この制限に対処するために、ローカル、スパース、グローバルの注意に依存するLSGアーキテクチャを導入します。
長文の分類と要約作業においてLSGの注意は高速で効率的で競争力があることを示す。
興味深いことに、既存の事前訓練モデルを適用して、追加のトレーニングなしでより長いシーケンスに効率的に外挿することもできる。
lsgアテンション機構の導入とともに、新しいモデルを訓練し、このメカニズムに基づいて既存のモデルに適応させるツールを提案する。
関連論文リスト
- Local Attention Mechanism: Boosting the Transformer Architecture for Long-Sequence Time Series Forecasting [8.841114905151152]
局所注意機構 (LAM) は時系列解析に適した効率的な注意機構である。
LAMは時系列の連続性特性を利用して計算された注目点数を減少させる。
時間とメモリO(nlogn)で動作する代数テンソルにLAMを実装するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T11:32:02Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - On the Long Range Abilities of Transformers [69.3021852589771]
トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。
長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。
以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
論文 参考訳(メタデータ) (2023-11-28T09:21:48Z) - Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Mega: Moving Average Equipped Gated Attention [150.3124713793503]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。
我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-21T20:52:17Z) - Long Range Language Modeling via Gated State Spaces [67.64091993846269]
本稿では,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点をあてる。
Gated State Space (GSS) と呼ばれる新しい層を提案し、S4の対角線よりもかなり高速に訓練可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T01:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。