論文の概要: CoLT5: Faster Long-Range Transformers with Conditional Computation
- arxiv url: http://arxiv.org/abs/2303.09752v3
- Date: Tue, 24 Oct 2023 00:51:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 01:24:23.800884
- Title: CoLT5: Faster Long-Range Transformers with Conditional Computation
- Title(参考訳): CoLT5: 条件計算付きより高速なロングレンジトランス
- Authors: Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Onta\~n\'on,
Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp,
Yi Tay, Yun-Hsuan Sung, Sumit Sanghai
- Abstract要約: 我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。
CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
- 参考スコア(独自算出の注目度): 65.83586041097763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many natural language processing tasks benefit from long inputs, but
processing long documents with Transformers is expensive -- not only due to
quadratic attention complexity but also from applying feedforward and
projection layers to every token. However, not all tokens are equally
important, especially for longer documents. We propose CoLT5, a long-input
Transformer model that builds on this intuition by employing conditional
computation, devoting more resources to important tokens in both feedforward
and attention layers. We show that CoLT5 achieves stronger performance than
LongT5 with much faster training and inference, achieving SOTA on the
long-input SCROLLS benchmark. Moreover, CoLT5 can effectively and tractably
make use of extremely long inputs, showing strong gains up to 64k input length.
- Abstract(参考訳): 多くの自然言語処理タスクは、長い入力の恩恵を受けるが、長い文書をトランスフォーマーで処理するのは高価である。
しかし、特に長い文書では、すべてのトークンが等しく重要であるわけではない。
本研究では,条件計算を駆使して,フィードフォワード層とアテンション層の両方で重要なトークンにより多くのリソースを割り当てる,この直観に基づく長入力トランスフォーマモデル colt5 を提案する。
我々は、長い入力SCROLLSベンチマークでSOTAを達成し、より高速なトレーニングと推論により、CoLT5はLongT5よりも強力な性能を実現することを示す。
さらに、CoLT5は、非常に長い入力を効果的に、かつ、牽引的に利用でき、64kまでの入力長が強い。
関連論文リスト
- MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。
MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
論文 参考訳(メタデータ) (2024-10-28T06:14:12Z) - Attention Alignment and Flexible Positional Embeddings Improve
Transformer Length Extrapolation [61.305218287797025]
理想的な長伸長トランスフォーマー言語モデルは、微調整なしでトレーニング長よりも長いシーケンスを処理できる。
T5ファミリーは、位置埋め込みがリッチでフレキシブルな注意パターンを捉えているので、よりよく見るべきである。
この問題を軽減するために,温度スケーリングによる2つのアライメント戦略を提案する。
論文 参考訳(メタデータ) (2023-11-01T17:43:35Z) - Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - Investigating Efficiently Extending Transformers for Long Input
Summarization [37.622021824791254]
本稿では,アーキテクチャ変更と事前学習のパラダイムが,長期入力の要約のために,事前学習したトランスフォーマを最も効率的に適用できるかを検討する。
我々は,グローバルトークンを持つブロックローカルトランスフォーマーは,性能と効率のバランスが良いことを見出した。
PEGモデルの拡張であるPEG-Xを導入し、入力を最大16Kのトークンで処理する。
論文 参考訳(メタデータ) (2022-08-08T18:10:58Z) - The NLP Task Effectiveness of Long-Range Transformers [38.46467445144777]
トランスフォーマーモデルは、O(N2)時間と空間の複雑さのため、容易に長い列にスケールできない。
5つの困難なNLPタスクと7つのデータセットに対して、Transformerモデルの7つの変種をベンチマークする。
長い範囲のトランスフォーマーの注意は、コンテンツ選択とクエリ誘導デコードに利点があるが、以前は認識されていなかった欠点が伴っている。
論文 参考訳(メタデータ) (2022-02-16T04:39:35Z) - LongT5: Efficient Text-To-Text Transformer for Long Sequences [8.743996838160825]
我々はLongT5と呼ばれる新しいモデルを提案し、入力長とモデルサイズの両方を同時にスケーリングする効果について検討する。
いくつかの要約タスクでは最先端の結果が得られ、質問応答タスクでは元のT5モデルよりも優れています。
論文 参考訳(メタデータ) (2021-12-15T06:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。