論文の概要: Simple Hardware-Efficient Long Convolutions for Sequence Modeling
- arxiv url: http://arxiv.org/abs/2302.06646v1
- Date: Mon, 13 Feb 2023 19:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 17:23:45.083517
- Title: Simple Hardware-Efficient Long Convolutions for Sequence Modeling
- Title(参考訳): 簡単なハードウェア効率の長い畳み込みによるシーケンスモデリング
- Authors: Daniel Y. Fu, Elliot L. Epstein, Eric Nguyen, Armin W. Thomas, Michael
Zhang, Tri Dao, Atri Rudra, Christopher R\'e
- Abstract要約: 状態空間モデル(SSM)は、長いシーケンスモデリングにおいて高い性能を持つ。
単純な代替手段が性能と効率においてSSMと一致するかどうかを考察する。
我々は、長い畳み込みのランタイム性能を改善するためのIO対応アルゴリズムであるFlashButterflyを開発した。
- 参考スコア(独自算出の注目度): 18.3719016967593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State space models (SSMs) have high performance on long sequence modeling but
require sophisticated initialization techniques and specialized implementations
for high quality and runtime performance. We study whether a simple alternative
can match SSMs in performance and efficiency: directly learning long
convolutions over the sequence. We find that a key requirement to achieving
high performance is keeping the convolution kernels smooth. We find that simple
interventions--such as squashing the kernel weights--result in smooth kernels
and recover SSM performance on a range of tasks including the long range arena,
image classification, language modeling, and brain data modeling. Next, we
develop FlashButterfly, an IO-aware algorithm to improve the runtime
performance of long convolutions. FlashButterfly appeals to classic Butterfly
decompositions of the convolution to reduce GPU memory IO and increase FLOP
utilization. FlashButterfly speeds up convolutions by 2.2$\times$, and allows
us to train on Path256, a challenging task with sequence length 64K, where we
set state-of-the-art by 29.1 points while training 7.2$\times$ faster than
prior work. Lastly, we introduce an extension to FlashButterfly that learns the
coefficients of the Butterfly decomposition, increasing expressivity without
increasing runtime. Using this extension, we outperform a Transformer on
WikiText103 by 0.2 PPL with 30% fewer parameters.
- Abstract(参考訳): 状態空間モデル(ssm)は長いシーケンスモデリングにおいて高い性能を持つが、高度な初期化技術と高品質と実行時のパフォーマンスのための特別な実装を必要とする。
我々は、単純な代替手段が性能と効率においてSSMと一致するかどうかを調査し、シーケンス上の長い畳み込みを直接学習する。
高い性能を達成するための重要な要件は、畳み込みカーネルをスムーズに保つことである。
例えば、カーネルの重みをスムースなカーネルに分散させ、長距離アリーナ、画像分類、言語モデリング、脳データモデリングなど、様々なタスクでssmのパフォーマンスを回復するといった単純な介入がある。
次に,長い畳み込みのランタイム性能を改善するio対応アルゴリズム flashbutterfly を開発した。
flashbutterflyは、gpuメモリioを削減し、フロップ利用を増加させるために畳み込みの古典的なバタフライ分解にアピールする。
FlashButterflyは畳み込みを2.2$\times$でスピードアップし、シーケンス長64Kの難しいタスクであるPath256のトレーニングを可能にします。
最後に,バタフライ分解の係数を学習し,ランタイムを増加させずに表現性を高めるflashbutterflyの拡張を提案する。
この拡張を用いてWikiText103上のTransformerを0.2 PPLで上回り、パラメータは30%減った。
関連論文リスト
- Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs [7.816840847892339]
投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。
本研究では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。
提案手法は,最小限のアーキテクチャ変更とデータトレーニングを必要としながら,最高のパフォーマンス・メモリ比の1つを達成した。
論文 参考訳(メタデータ) (2024-05-30T17:54:35Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - LMUFormer: Low Complexity Yet Powerful Spiking Model With Legendre
Memory Units [5.830814457423021]
トランスフォーマーモデルは、多くのアプリケーションで高い精度を示してきたが、複雑さが高く、シーケンシャルな処理能力に欠けていた。
繰り返しモデルに対するアーキテクチャ上の変更が、Transformerモデルへのパフォーマンス向上にどのように役立つかを示す。
本稿では,このアーキテクチャのスパイクバージョンを紹介し,パッチ埋め込みおよびチャネルミキサーモジュール内の状態の利点を紹介する。
論文 参考訳(メタデータ) (2024-01-20T01:10:18Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - TransNormerLLM: A Faster and Better Large Language Model with Improved
TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。
我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文 参考訳(メタデータ) (2023-07-27T16:45:33Z) - FlashAttention-2: Faster Attention with Better Parallelism and Work
Partitioning [11.508362885430133]
非対称なGPUメモリ階層を利用して、メモリの大幅な節約と実行時の高速化を実現しています。
FlashAttentionはまだGEMM(Optimized matrix-multiply)操作ほど高速ではなく、理論上の最大FLOP/sの25-40%にしか達していない。
これらの問題に対処するために、より優れた作業パーティショニングを備えたFlashAttention-2を提案する。
論文 参考訳(メタデータ) (2023-07-17T17:50:36Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。