Fugu-MT 論文翻訳(概要): TCNCA: Temporal Convolution Network with Chunked Attention for Scalable Sequence Processing

論文の概要: TCNCA: Temporal Convolution Network with Chunked Attention for Scalable Sequence Processing

arxiv url: http://arxiv.org/abs/2312.05605v1
Date: Sat, 9 Dec 2023 16:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 19:47:20.320500
Title: TCNCA: Temporal Convolution Network with Chunked Attention for Scalable Sequence Processing
Title（参考訳）: TCTCA: 拡張シーケンス処理のためのチャンク注意を伴う時間的畳み込みネットワーク
Authors: Aleksandar Terzic, Michael Hersche, Geethan Karunaratne, Luca Benini, Abu Sebastian, Abbas Rahimi
Abstract要約: MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
参考スコア（独自算出の注目度）: 52.64837396100988
License: http://creativecommons.org/licenses/by/4.0/
Abstract: MEGA is a recent transformer-based architecture, which utilizes a linear recurrent operator whose parallel computation, based on the FFT, scales as $O(LlogL)$, with $L$ being the sequence length. We build upon their approach by replacing the linear recurrence with a special temporal convolutional network which permits larger receptive field size with shallower networks, and reduces the computational complexity to $O(L)$. The resulting model is called TCNCA, a Temporal Convolutional Network with Chunked Attention. We evaluate TCNCA on EnWik8 language modeling, long-range-arena (LRA) sequence classification, as well as a synthetic reasoning benchmark associative recall. On EnWik8, TCNCA outperforms MEGA, reaching a lower loss with $1.37\times$/$1.24\times$ faster forward/backward pass during training. The dilated convolutions used in TCNCA are consistently and significantly faster operations than the FFT-based parallelized recurrence in GPUs, making them a scalable candidate for handling very large sequence lengths: they are up to $7.07\times$/$2.86\times$ faster in the forward/backward pass for sequences up to 131k. Further on LRA, TCNCA achieves, on average, $1.28\times$ speed-up during inference with similar accuracy to what MEGA achieves. On associative recall, we find that even a simplified version of TCNCA, without excessive multiplicative and additive interactions, remains superior or competitive to MEGA on a range of sequence lengths and vocabulary sizes.
Abstract（参考訳）: MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。結果として得られたモデルはTCNCAと呼ばれ、Chunked Attentionを備えたテンポラル畳み込みネットワークである。我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。 EnWik8では、TCNCAはMEGAを上回り、トレーニング中に1.37\times$/1.24\times$より速いフォワード/バックワードパスで損失を減らした。 TCNCAで使用される拡張畳み込みは、GPUのFFTベースの並列化繰り返しよりも一貫して大幅に高速であり、非常に大きなシーケンス長を扱うためのスケーラブルな候補となる。さらにLRAでは、TCNCAは平均して、MEGAが達成したのと同じ精度で推論中に1.28\times$スピードアップを達成する。連想的リコールでは, 過剰な乗法的および加法的相互作用を伴わずに, TCNCA の簡易版でさえ, 配列長や語彙サイズにおいて MEGA よりも優れているか, あるいは競合的であることがわかった。

関連論文リスト

Tensor Decomposition Networks for Fast Machine Learning Interatomic Potential Computations [63.945006006152035]
テンソル分解ネットワーク(TDN)は、計算処理の劇的な高速化と競合する性能を実現する。 1億5500万のDFT計算スナップショットを含む分子緩和データセットPubChemQCRのTDNを評価した。
論文参考訳（メタデータ） (2025-07-01T18:46:27Z)
Efficient Parallel Training Methods for Spiking Neural Networks with Constant Time Complexity [63.56009745101597]
スパイキングニューラルネットワーク (SNN) はしばしば、$T$スパイクのシーケンシャル処理のために、高い時間複雑性の$O(T)$に悩まされる。本稿では,ネットワークアーキテクチャを変更することなく,SNNトレーニングを高速化するFPT法を提案する。
論文参考訳（メタデータ） (2025-06-10T13:27:27Z)
Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts [5.585952216289788]
トランスフォーマーモデルは、2次時間と線形メモリの複雑さのために、長いコンテキスト推論に苦しむ。リカレントメモリ(RMT)は、コストの線形時間とメモリ使用量の一定を削減してソリューションを提供する。しかし、メモリ更新メカニズムがシーケンシャルな実行を引き起こし、パフォーマンスのボトルネックが発生します。本稿では,RTTのセグメント間の並列性を正確に保ちつつ,並列性を解放するスケジューリング手法であるDiagonalを紹介する。
論文参考訳（メタデータ） (2025-06-05T16:43:48Z)
Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [53.925413758281096]
LrcSSMは$textitnonlinear$recurrentモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。 LrcSSMは、Liquid-S4やMambaのような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。本稿では,LrcSSMがLRU,S5,Mambaより優れていることを示す。
論文参考訳（メタデータ） (2025-05-27T20:02:59Z)
Tensor Train Multiplication [0.0]
TTMアルゴリズムの計算複雑性とメモリ要件はそれぞれ$chi3$と$chi2$である。これは従来のアプローチに比べて大幅に改善されている。 TTMアルゴリズムは、大きな結合次元を持つ計算流体力学問題のGPU加速テンソルネットワークシミュレーションへの道を開く。
論文参考訳（メタデータ） (2024-10-10T12:36:49Z)
PRF: Parallel Resonate and Fire Neuron for Long Sequence Learning in Spiking Neural Networks [6.545474731089018]
スパイキングニューラルネットワーク(SNN)における長周期学習の効率性と性能の課題を同時に解決する。まず,典型的なLeaky Integrate-and-Fire(LIF)モデルのトレーニング時間を$O(L2)$から$O(Llog L)$に短縮する。第二に、長距離依存性を捉えるために、複素領域における微分可能リセット関数から共振機構によって駆動される振動膜電位を利用するパラレル共鳴・火災ニューロン(PRF)を提案する。
論文参考訳（メタデータ） (2024-10-04T15:51:56Z)
Were RNNs All We Needed? [53.393497486332]
従来のリカレントニューラルネットワーク(RNN)を10年以上前から再検討しています。入力から隠れた状態依存を取り除くことで、LSTMやGRUはBPTTを必要とせず、並列で効率的に訓練できることを示す。
論文参考訳（メタデータ） (2024-10-02T03:06:49Z)
Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。 MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。 huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文参考訳（メタデータ） (2024-07-22T01:52:30Z)
A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。 HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。 HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文参考訳（メタデータ） (2024-06-14T08:32:45Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文参考訳（メタデータ） (2023-10-05T03:47:57Z)
DeepPCR: Parallelizing Sequential Operations in Neural Networks [4.241834259165193]
我々は、ニューラルネットワークの推論とトレーニングを高速化するために、典型的にはシーケンシャルな操作を並列化する新しいアルゴリズムであるDeepPCRを紹介する。 DeepPCRは、特定の方程式系の解法として$L$のステップ列を解釈し、並列サイクル還元アルゴリズムを用いて回復する。アルゴリズムの理論的に低い複雑性を検証し,高速化のための機構を同定するために,多層パーセプトロンの前方・後方パスの並列化におけるDeepPCRの有効性を検証した。
論文参考訳（メタデータ） (2023-09-28T10:15:30Z)
Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文参考訳（メタデータ） (2023-07-17T16:40:01Z)
Scalable Quantum Error Correction for Surface Codes using FPGA [67.74017895815125]
フォールトトレラントな量子コンピュータは、出現するよりも早くデコードし、エラーを修正する必要がある。並列計算資源を利用したUnion-Findデコーダの分散バージョンを報告する。この実装では、並列コンピューティングリソースをハイブリッドツリーグリッド構造に整理する、Heliosと呼ばれるスケーラブルなアーキテクチャを採用している。
論文参考訳（メタデータ） (2023-01-20T04:23:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。