論文の概要: Ring Attention with Blockwise Transformers for Near-Infinite Context
- arxiv url: http://arxiv.org/abs/2310.01889v3
- Date: Thu, 12 Oct 2023 01:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 14:43:18.327478
- Title: Ring Attention with Blockwise Transformers for Near-Infinite Context
- Title(参考訳): ブロックワイズ変換器を用いた近無限文脈におけるリング注意
- Authors: Hao Liu, Matei Zaharia, Pieter Abbeel
- Abstract要約: トランスフォーマーは多くの最先端AIモデルのアーキテクチャとして登場し、幅広いAIアプリケーションで例外的なパフォーマンスを示している。
本稿では,複数のデバイスにまたがって長いシーケンスを分散し,ブロックワイドアテンションの計算とキーバリューブロックの通信を重複させながら,ブロックワイドな自己注意の手法であるリングアテンション(Ring Attention)を提案する。
リング注意(Ring Attention)は、デバイスカウントまでのシーケンスのトレーニングと推論を可能にし、個々のデバイスによって課されるメモリ制約を効果的に排除する。
- 参考スコア(独自算出の注目度): 88.61687950039662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have emerged as the architecture of choice for many
state-of-the-art AI models, showcasing exceptional performance across a wide
range of AI applications. However, the memory demands imposed by Transformers
limit their ability to handle long sequences, thereby creating challenges for
tasks involving extended sequences or long-term dependencies. We present a
distinct approach, Ring Attention, which leverages blockwise computation of
self-attention to distribute long sequences across multiple devices while
overlapping the communication of key-value blocks with the computation of
blockwise attention. Ring Attention enables training and inference of sequences
that are up to device count times longer than those of prior memory-efficient
Transformers, effectively eliminating the memory constraints imposed by
individual devices. Extensive experiments on language modeling tasks
demonstrate the effectiveness of Ring Attention in allowing large sequence
input size and improving performance.
- Abstract(参考訳): トランスフォーマーは多くの最先端AIモデルのアーキテクチャとして登場し、幅広いAIアプリケーションで例外的なパフォーマンスを示している。
しかし、Transformerが要求するメモリ要求は、長いシーケンスを扱う能力を制限するため、拡張シーケンスや長期依存関係を含むタスクの課題が生じる。
本稿では,キー・バリュー・ブロックの通信をブロック・アテンションの計算と重ね合わせながら,複数のデバイスに長いシーケンスを分散するために自己アテンションをブロック単位で計算するリング・アテンションを提案する。
リング注意(Ring Attention)は、デバイスカウントまでのシーケンスのトレーニングと推論を可能にし、個々のデバイスによって課されるメモリ制約を効果的に排除する。
言語モデリングタスクに関する広範な実験は、大きなシーケンス入力サイズとパフォーマンスの向上を可能にするリングアテンションの有効性を示している。
関連論文リスト
- Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z) - Chunk, Align, Select: A Simple Long-sequence Processing Method for
Transformers [25.86557845358799]
そこで本研究では,オフザシェルフ事前学習型トランスフォーマーにおいて,より長いシーケンス処理を実現するための簡単なフレームワークを提案する。
提案手法では,各時系列入力をチャンクのバッチに分割し,エンコーディングステップ中にインターチャンク情報をアライメントする。
我々は,変圧器のデコーダを環境とみなす効果的な隠れ選択ポリシーを学習する。
論文 参考訳(メタデータ) (2023-08-25T05:52:05Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Scaling Transformer to 1M tokens and beyond with RMT [5.60052250541419]
変圧器によって解ける問題の範囲の広い大きな制限は、入力サイズによる計算複雑性の2次スケーリングである。
本研究では,入力コンテキスト長を線形にスケーリングしながら,事前学習したトランスフォーマーモデルの繰り返しメモリ拡張について検討する。
提案手法は,検索精度を高く保ちつつ,前例のない200万トークンのシーケンスの情報をメモリに格納できることを実証する。
論文 参考訳(メタデータ) (2023-04-19T16:18:54Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Transformer Acceleration with Dynamic Sparse Attention [20.758709319088865]
本稿では,トランスフォーマーの注意における動的間隔を効果的に活用する動的スパース注意(DSA)を提案する。
われわれのアプローチは、精度とモデルの複雑さのトレードオフを改善することができる。
論文 参考訳(メタデータ) (2021-10-21T17:31:57Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。