論文の概要: TCNCA: Temporal Convolution Network with Chunked Attention for Scalable
Sequence Processing
- arxiv url: http://arxiv.org/abs/2312.05605v1
- Date: Sat, 9 Dec 2023 16:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:47:20.320500
- Title: TCNCA: Temporal Convolution Network with Chunked Attention for Scalable
Sequence Processing
- Title(参考訳): TCTCA: 拡張シーケンス処理のためのチャンク注意を伴う時間的畳み込みネットワーク
- Authors: Aleksandar Terzic, Michael Hersche, Geethan Karunaratne, Luca Benini,
Abu Sebastian, Abbas Rahimi
- Abstract要約: MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。
線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。
我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
- 参考スコア(独自算出の注目度): 52.64837396100988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MEGA is a recent transformer-based architecture, which utilizes a linear
recurrent operator whose parallel computation, based on the FFT, scales as
$O(LlogL)$, with $L$ being the sequence length. We build upon their approach by
replacing the linear recurrence with a special temporal convolutional network
which permits larger receptive field size with shallower networks, and reduces
the computational complexity to $O(L)$. The resulting model is called TCNCA, a
Temporal Convolutional Network with Chunked Attention. We evaluate TCNCA on
EnWik8 language modeling, long-range-arena (LRA) sequence classification, as
well as a synthetic reasoning benchmark associative recall. On EnWik8, TCNCA
outperforms MEGA, reaching a lower loss with $1.37\times$/$1.24\times$ faster
forward/backward pass during training. The dilated convolutions used in TCNCA
are consistently and significantly faster operations than the FFT-based
parallelized recurrence in GPUs, making them a scalable candidate for handling
very large sequence lengths: they are up to $7.07\times$/$2.86\times$ faster in
the forward/backward pass for sequences up to 131k. Further on LRA, TCNCA
achieves, on average, $1.28\times$ speed-up during inference with similar
accuracy to what MEGA achieves. On associative recall, we find that even a
simplified version of TCNCA, without excessive multiplicative and additive
interactions, remains superior or competitive to MEGA on a range of sequence
lengths and vocabulary sizes.
- Abstract(参考訳): MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。
線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。
結果として得られたモデルはTCNCAと呼ばれ、Chunked Attentionを備えたテンポラル畳み込みネットワークである。
我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
EnWik8では、TCNCAはMEGAを上回り、トレーニング中に1.37\times$/1.24\times$より速いフォワード/バックワードパスで損失を減らした。
TCNCAで使用される拡張畳み込みは、GPUのFFTベースの並列化繰り返しよりも一貫して大幅に高速であり、非常に大きなシーケンス長を扱うためのスケーラブルな候補となる。
さらにLRAでは、TCNCAは平均して、MEGAが達成したのと同じ精度で推論中に1.28\times$スピードアップを達成する。
連想的リコールでは, 過剰な乗法的および加法的相互作用を伴わずに, TCNCA の簡易版でさえ, 配列長や語彙サイズにおいて MEGA よりも優れているか, あるいは競合的であることがわかった。
関連論文リスト
- HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for
Long Sequences [1.7403133838762448]
我々は、長さ$n$のシーケンスに対する注意の時間とメモリの複雑さを低減するために、分割・参照戦略を利用する新しい注意機構であるFast Multipole Attentionを提案する。
階層的なアプローチは、クエリ、キー、値を$mathcalO(log n)$の解像度レベルにグループ化する。
我々は,高速多極変換器がメモリサイズや精度の点で,他の効率的な変換器よりもはるかに優れていることを実証的に見出した。
論文 参考訳(メタデータ) (2023-10-18T13:40:41Z) - DeepPCR: Parallelizing Sequential Operations in Neural Networks [4.241834259165193]
我々は、ニューラルネットワークの推論とトレーニングを高速化するために、典型的にはシーケンシャルな操作を並列化する新しいアルゴリズムであるDeepPCRを紹介する。
DeepPCRは、特定の方程式系の解法として$L$のステップ列を解釈し、並列サイクル還元アルゴリズムを用いて回復する。
アルゴリズムの理論的に低い複雑性を検証し,高速化のための機構を同定するために,多層パーセプトロンの前方・後方パスの並列化におけるDeepPCRの有効性を検証した。
論文 参考訳(メタデータ) (2023-09-28T10:15:30Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Scalable Quantum Error Correction for Surface Codes using FPGA [67.74017895815125]
フォールトトレラントな量子コンピュータは、出現するよりも早くデコードし、エラーを修正する必要がある。
並列計算資源を利用したUnion-Findデコーダの分散バージョンを報告する。
この実装では、並列コンピューティングリソースをハイブリッドツリーグリッド構造に整理する、Heliosと呼ばれるスケーラブルなアーキテクチャを採用している。
論文 参考訳(メタデータ) (2023-01-20T04:23:00Z) - SITHCon: A neural network robust to variations in input scaling on the
time dimension [0.0]
機械学習では、畳み込みニューラルネットワーク(CNN)はコンピュータビジョンと時間とともに拡張されたパターンの認識の両方に非常に影響を与えている。
本稿では,対数的に分散した時間メモリを用いたSITHCon(Scale-Invariant Temporal History Convolution Network)を提案する。
論文 参考訳(メタデータ) (2021-07-09T18:11:50Z) - Asynchronous Advantage Actor Critic: Non-asymptotic Analysis and Linear
Speedup [56.27526702716774]
本稿では、A3CアルゴリズムをTD(0)で修正し、A3C-TD(0)と呼ばれ、証明可能な収束を保証する。
i.i.d.
サンプリング a3c-td(0) は、作業者あたり $mathcalo(epsilon-2.5/n)$ のサンプル複雑性を取得して $epsilon$ 精度を達成する。
2 に対して $mathcalO(epsilon-2.5/N)$ の最もよく知られたサンプル複雑性との比較
論文 参考訳(メタデータ) (2020-12-31T09:07:09Z) - Sub-Linear Memory: How to Make Performers SLiM [38.068090269482425]
vanilla Transformerは、入力長$L$の関数としてシリアル時間とメモリで$O(L2)$を必要とする。
最近の研究は、連続計算に$o(l)$でしかスケールしない様々な線形自己アテンション機構を提案している。
計算の柔軟性は顕著であり, サブリニアメモリを用いた近似をすることなく, 前方および後方の伝播を行うことができる。
論文 参考訳(メタデータ) (2020-12-21T13:56:04Z) - L$^2$-GCN: Layer-Wise and Learned Efficient Training of Graph
Convolutional Networks [118.37805042816784]
グラフ畳み込みネットワーク(GCN)は、多くのアプリケーションで人気が高まっているが、大きなグラフデータセットをトレーニングするのは依然として難しい。
本稿では,GCN (L-GCN) のための新しいレイヤワイドトレーニングフレームワークを提案する。
実験の結果、L-GCNは少なくとも1桁の精度で最先端よりも高速であり、メモリ使用量はデータセットのサイズに依存しないことがわかった。
論文 参考訳(メタデータ) (2020-03-30T16:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。