論文の概要: Flash Inference: Near Linear Time Inference for Long Convolution Sequence Models and Beyond
- arxiv url: http://arxiv.org/abs/2410.12982v1
- Date: Wed, 16 Oct 2024 19:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:18.555101
- Title: Flash Inference: Near Linear Time Inference for Long Convolution Sequence Models and Beyond
- Title(参考訳): Flash推論:長い畳み込みシーケンスモデルのためのニア線形時間推論
- Authors: Costin-Andrei Oncescu, Sanket Purandare, Stratos Idreos, Sham Kakade,
- Abstract要約: 本稿では,LCSMの正確な推定速度を準線形$O(Llog2L)$ timeに高速化する手法を提案する。
私たちはHyenaのコンセプト実装の証明を提供し、標準推論よりも1.6倍のエンドツーエンドの改善が得られます。
- 参考スコア(独自算出の注目度): 7.280765035096294
- License:
- Abstract: While transformers have been at the core of most recent advancements in sequence generative models, their computational cost remains quadratic in sequence length. Several subquadratic architectures have been proposed to address this computational issue. Some of them, including long convolution sequence models (LCSMs), such as Hyena, address this issue at training time but remain quadratic during inference. We propose a method for speeding up LCSMs' exact inference to quasilinear $O(L\log^2L)$ time, identify the key properties that make this possible, and propose a general framework that exploits these. Our approach, inspired by previous work on relaxed polynomial interpolation, is based on a tiling which helps decrease memory movement and share computation. It has the added benefit of allowing for almost complete parallelization across layers of the position-mixing part of the architecture. Empirically, we provide a proof of concept implementation for Hyena, which gets up to $1.6\times$ end-to-end improvement over standard inference by improving $50\times$ within the position-mixing part.
- Abstract(参考訳): 変換器は直近のシーケンス生成モデルの発展の核にあるが、その計算コストはシークエンス長さにおいて2次的のままである。
この計算問題に対処するために、いくつかのサブクワッドラティックアーキテクチャが提案されている。
ヒエナのような長い畳み込みシーケンスモデル(LCSM)を含むそれらのいくつかは、トレーニング時にこの問題に対処するが、推論中は二次的のままである。
本稿では,LCSMの正確な推定を準線形$O(L\log^2L)$ timeに高速化する手法を提案する。
我々のアプローチは、緩和多項式補間に関するこれまでの研究から着想を得たものであり、メモリ移動の減少と計算の共有を支援するタイリングに基づいている。
アーキテクチャのポジションミキシング部分のレイヤ間でほぼ完全な並列化を可能にするというメリットが追加されている。
実証的に、Hyenaのコンセプト実装の証明を提供する。これは、標準推論よりも最大$16\times$ end-to-endの改善であり、位置混合部内で50\times$を改善します。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Tractable Bounding of Counterfactual Queries by Knowledge Compilation [51.47174989680976]
本稿では, パール構造因果モデルにおいて, 因果関係などの部分的特定可能なクエリのバウンダリングの問題について議論する。
最近提案された反復EMスキームは初期化パラメータをサンプリングしてそれらの境界を内部近似する。
シンボルパラメータを実際の値に置き換えた回路構造を,単一のシンボル知識コンパイルによって得られることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:10:40Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures [2.2940141855172027]
基本的な考え方は、2次元の畳み込みとクロス相関を変換領域内の1次元の畳み込みとクロス相関の集合にマッピングすることである。
このアプローチでは、スケーラブルなアーキテクチャを使用して、最新のFPGAやZynq-SOCデバイスに組み込むことができる。
論文 参考訳(メタデータ) (2021-12-24T22:34:51Z) - The connection between time-local and time-nonlocal perturbation
expansions [0.0]
カーネル $mathcalK$ の級数は、より複雑な生成元 $mathcalG$ の対応する級数に直接変換されることを示す。
単一不純物アンダーソンモデルに対して$mathcalK$および$mathcalG$のリードおよび次から次への順序計算について説明する。
論文 参考訳(メタデータ) (2021-07-19T15:05:29Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Reusing Combinatorial Structure: Faster Iterative Projections over
Submodular Base Polytopes [7.734726150561089]
離散的視点と連続的な視点の両方を用いて投影の計算を高速化するツールキットを開発した。
基数に基づく部分モジュラーポリトープの特別の場合、あるブレグマン射影の計算ランタイムを$Omega(n/log(n))$の係数で改善する。
論文 参考訳(メタデータ) (2021-06-22T17:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。