論文の概要: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention
- arxiv url: http://arxiv.org/abs/2406.15486v1
- Date: Mon, 17 Jun 2024 11:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 06:51:29.407617
- Title: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention
- Title(参考訳): 適応的構造的スパースアテンションを用いたLLM推論の近接ロスレス高速化
- Authors: Qianchao Zhu, Jiangfei Duan, Chang Chen, Siran Liu, Xiuhong Li, Guanyu Feng, Xin Lv, Huanqi Cao, Xiao Chuanfu, Xingcheng Zhang, Dahua Lin, Chao Yang,
- Abstract要約: 大きな言語モデル(LLM)は、非常に長いコンテキストウィンドウをサポートするようになった。
バニラの注意の二次的な複雑さは、TTFT(Time-to-First-Token)レイテンシを著しく長くする。
適応型構造とほぼロスレスなスパースアテンションであるSampleAttentionを提案する。
- 参考スコア(独自算出の注目度): 47.5772915135952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) now support extremely long context windows, but the quadratic complexity of vanilla attention results in significantly long Time-to-First-Token (TTFT) latency. Existing approaches to address this complexity require additional pretraining or finetuning, and often sacrifice model accuracy. In this paper, we first provide both theoretical and empirical foundations for near-lossless sparse attention. We find dynamically capturing head-specific sparse patterns at runtime with low overhead is crucial. To address this, we propose SampleAttention, an adaptive structured and near-lossless sparse attention. Leveraging observed significant sparse patterns, SampleAttention attends to a fixed percentage of adjacent tokens to capture local window patterns, and employs a two-stage query-guided key-value filtering approach, which adaptively select a minimum set of key-values with low overhead, to capture column stripe patterns. Comprehensive evaluations show that SampleAttention can seamlessly replace vanilla attention in off-the-shelf LLMs with nearly no accuracy loss, and reduces TTFT by up to $2.42\times$ compared with FlashAttention.
- Abstract(参考訳): 大規模言語モデル(LLM)は、非常に長いコンテキストウィンドウをサポートするようになったが、バニラアテンションの二次的な複雑さにより、TTFT(Time-to-First-Token)レイテンシが非常に長い。
この複雑さに対処する既存のアプローチは、追加の事前訓練や微調整を必要とし、しばしばモデルの精度を犠牲にする。
本稿では,まず,理論的および実証的な基礎を,ほぼ無光沢なスパークス・アテンションのために提示する。
オーバーヘッドの少ないヘッド固有スパースパターンを実行時に動的にキャプチャすることが重要である。
そこで本研究では,適応型構造化とほぼ無意味なスパースアテンションであるSampleAttentionを提案する。
重要なスパースパターンを活用すれば、SampleAttentionは、ローカルウィンドウパターンをキャプチャするために隣接するトークンの一定割合に到達し、2段階のクエリ誘導キー値フィルタリングアプローチを使用して、最小のキー値セットを少ないオーバーヘッドで適応的に選択し、カラムストリップパターンをキャプチャする。
総合的な評価によると、SampleAttentionは市販のLLMのバニラ注意をほぼ精度の低下なしにシームレスに置き換えることができ、また、FlashAttentionと比較してTTFTを最大2.42\times$に下げることができる。
関連論文リスト
- Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - Boosting MLPs with a Coarsening Strategy for Long-Term Time Series Forecasting [6.481470306093991]
ディープラーニング手法は,長期連続予測においてその強みを発揮してきた。
彼らはしばしば表現力と計算効率のバランスをとるのに苦労する。
本稿では,情報グラニュラーを単独の時間点の代わりに形成することにより,プロトタイプに関わる問題を緩和する粗大化戦略を提案する。
純粋な構造的単純さの畳み込みに基づいて、CP-Netは線形計算の複雑さとランタイムの低さを維持しつつ、7つの予測ベンチマークでSOTA法と比較すると4.1%の改善を示した。
論文 参考訳(メタデータ) (2024-05-06T06:47:44Z) - SparseTSF: Modeling Long-term Time Series Forecasting with 1k Parameters [16.966008476215258]
本稿では,長期時系列予測(LTSF)のための新しい,極めて軽量なモデルであるSparseTSFを紹介する。
SparseTSFの中心にはCross-Period Sparse Forecasting技術があり、時系列データの周期性と傾向を分離することで予測タスクを単純化する。
SparseTSFは目覚ましい一般化機能を示しており、限られた計算資源、小さなサンプル、低品質のデータを扱うシナリオに適している。
論文 参考訳(メタデータ) (2024-05-02T02:15:23Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - Explaining Time Series via Contrastive and Locally Sparse Perturbations [45.055327583283315]
ContraLSPは、非形式的摂動を構築するために反事実サンプルを導入するスパースモデルである。
合成と実世界の両方のデータセットに関する実証研究は、ContraLSPが最先端のモデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-01-16T18:27:37Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Hierarchical Adaptive Voxel-guided Sampling for Real-time Applications
in Large-scale Point Clouds [6.094829692829813]
本稿では,線形複雑化と高並列化を実現した階層型適応型ボクセル誘導点サンプリング器を提案する。
提案手法は,100倍以上の速度で,最も強力なFPSと競合する性能を実現する。
我々のサンプルは既存のモデルに簡単に統合でき、最小限の労力でランタイムを20$sim$80%削減できる。
論文 参考訳(メタデータ) (2023-05-23T17:45:49Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。