論文の概要: Big Bird: Transformers for Longer Sequences
- arxiv url: http://arxiv.org/abs/2007.14062v2
- Date: Fri, 8 Jan 2021 07:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 01:26:45.759504
- Title: Big Bird: Transformers for Longer Sequences
- Title(参考訳): big bird: 長いシーケンスのトランスフォーマー
- Authors: Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris
Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang,
Amr Ahmed
- Abstract要約: BigBird は列関数の普遍近似であり、チューリング完備であることを示す。
提案されたスパースアテンションは、これまで可能であった8倍の長さのシーケンスを処理できる。
BigBirdは、質問応答や要約など、さまざまなNLPタスクのパフォーマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 40.12772565610501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers-based models, such as BERT, have been one of the most successful
deep learning models for NLP. Unfortunately, one of their core limitations is
the quadratic dependency (mainly in terms of memory) on the sequence length due
to their full attention mechanism. To remedy this, we propose, BigBird, a
sparse attention mechanism that reduces this quadratic dependency to linear. We
show that BigBird is a universal approximator of sequence functions and is
Turing complete, thereby preserving these properties of the quadratic, full
attention model. Along the way, our theoretical analysis reveals some of the
benefits of having $O(1)$ global tokens (such as CLS), that attend to the
entire sequence as part of the sparse attention mechanism. The proposed sparse
attention can handle sequences of length up to 8x of what was previously
possible using similar hardware. As a consequence of the capability to handle
longer context, BigBird drastically improves performance on various NLP tasks
such as question answering and summarization. We also propose novel
applications to genomics data.
- Abstract(参考訳): BERTのようなトランスフォーマーベースのモデルは、NLPの最も成功したディープラーニングモデルの1つである。
残念なことに、その中核的な制限の1つは、その完全な注意機構のため、シーケンス長の二次的依存(主にメモリ)である。
そこで我々は,この2次依存を線形に還元する疎度注意機構であるBigBirdを提案する。
我々は、BigBirdが順序関数の普遍近似であり、チューリング完全であることを示す。
その過程で、我々の理論的分析は、疎注意機構の一部としてシーケンス全体に対応する$O(1)$グローバルトークン(CLSなど)を持つことの利点をいくつか明らかにしている。
提案したスパースアテンションは、以前同様のハードウェアで可能だった8倍の長さのシーケンスを処理できる。
より長いコンテキストを扱う能力の結果として、BigBirdは質問応答や要約などの様々なNLPタスクのパフォーマンスを大幅に改善した。
また、ゲノムデータに対する新しい応用を提案する。
関連論文リスト
- SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models [4.497551890206997]
自己保持機構は、シーケンス長で2次スケールする。
LongLoRAは、コンテキスト拡張を有効に可能にしたスパースアテンション(S(2)-Attn)を提案した。
SinkLoRAは相変わらずバニラの注意ほど効率的ではなく、完全な注意よりも難易度の改善の39%にしか達していない。
論文 参考訳(メタデータ) (2024-06-09T07:23:34Z) - Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - LittleBird: Efficient Faster & Longer Transformer for Question Answering [0.0]
精度を保ちながら速度とメモリフットプリントを改善した,BigBirdに基づく新しいモデルであるLittleBirdを提案する。
特に、線形バイアスによる注意に基づくより柔軟で効率的な位置表現法(ALiBi)を考案する。
提案モデルでは, 短時間入力で事前学習した場合でも, 長い入力に有効であり, 既存の事前学習言語モデルを短時間入力で効率的に再利用することができる。
論文 参考訳(メタデータ) (2022-10-21T10:46:41Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating
Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。
Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。
GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文 参考訳(メタデータ) (2021-02-07T20:06:59Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive
Connection [51.376723069962]
本稿では,スパース適応接続(Sparse Adaptive Connection)を提案する。
SACでは、入力シーケンスをグラフとみなし、リンクノード間のアテンション操作を行う。
我々は,SACが最先端モデルと競合する一方で,メモリコストを大幅に削減することを示した。
論文 参考訳(メタデータ) (2020-03-22T07:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。