論文の概要: Online Pseudo-average Shifting Attention(PASA) for Robust Low-precision LLM Inference: Algorithms and Numerical Analysis
- arxiv url: http://arxiv.org/abs/2503.01873v1
- Date: Wed, 26 Feb 2025 01:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:59.305020
- Title: Online Pseudo-average Shifting Attention(PASA) for Robust Low-precision LLM Inference: Algorithms and Numerical Analysis
- Title(参考訳): ロバスト低精度LDM推論のためのオンライン擬似平均シフト注意(PASA):アルゴリズムと数値解析
- Authors: Long Cheng, Qichen Liao, Fan Wu, Junlin Mu, Tengfei Han, Zhe Qiu, Lianqiang Li, Tianyi Liu, Fangzheng Miao, Keming Gao, Liang Wang, Zhen Zhang, Qiande Yin,
- Abstract要約: 我々は、Flash Attentionに基づくPASAと呼ばれる低精度で数学的に等価なアルゴリズムを開発した。
PASAは、オンライン擬似平均シフトとグローバルリカバリの2つの新しいテクニックを紹介している。
注意入力データの大きなバイアスと振幅が,数値オーバーフローに寄与する重要な要因であることがわかった。
- 参考スコア(独自算出の注目度): 15.71443217369106
- License:
- Abstract: Attention calculation is extremely time-consuming for long-sequence inference tasks, such as text or image/video generation, in large models. To accelerate this process, we developed a low-precision, mathematically-equivalent algorithm called PASA, based on Flash Attention. PASA introduces two novel techniques: online pseudo-average shifting and global recovering. These techniques enable the use of half-precision computation throughout the Flash Attention process without incurring overflow instability or unacceptable numerical accuracy loss. This algorithm enhances performance on memory-restricted AI hardware architectures, such as the Ascend Neural-network Processing Unit(NPU), by reducing data movement and increasing computational FLOPs. The algorithm is validated using both designed random benchmarks and real large models. We find that the large bias and amplitude of attention input data are critical factors contributing to numerical overflow ($>65504$ for half precision) in two different categories of large models (Qwen2-7B language models and Stable-Video-Diffusion multi-modal models). Specifically, overflow arises due to the large bias in the sequence dimension and the resonance mechanism between the query and key in the head dimension of the Stable-Video-Diffusion models. The resonance mechanism is defined as phase coincidence or 180-degree phase shift between query and key matrices. It will remarkably amplify the element values of attention score matrix. This issue also applies to the Qwen models. Additionally, numerical accuracy is assessed through root mean square error (RMSE) and by comparing the final generated texts and videos to those produced using high-precision attention.
- Abstract(参考訳): 注意計算は、大規模なモデルにおいて、テキストや画像/ビデオ生成のような長時間の推論タスクに非常に時間がかかる。
このプロセスの高速化を目的として,Flash Attention に基づく PASA という低精度で数学的に等価なアルゴリズムを開発した。
PASAは、オンライン擬似平均シフトとグローバルリカバリの2つの新しいテクニックを紹介している。
これらの技術は、オーバーフロー不安定や受け入れ難い数値精度損失を招くことなく、Flashアテンションプロセス全体を通して半精度計算を使用できる。
このアルゴリズムは、メモリ制限されたAIハードウェアアーキテクチャ、例えばAscend Neural-network Processing Unit(NPU)の性能を向上させる。
このアルゴリズムは、設計されたランダムベンチマークと実際の大規模モデルの両方を用いて検証される。
その結果,大規模モデルの2つのカテゴリ(Qwen2-7B言語モデルとStable-Video-Diffusionマルチモーダルモデル)において,大きなバイアスと注意入力データの振幅が数値オーバーフローに寄与する重要な要因であることが判明した。
具体的には、シーケンス次元における大きなバイアスと、安定ビデオ拡散モデルのヘッド次元におけるクエリとキー間の共振機構によってオーバーフローが発生する。
共振機構は、クエリとキー行列間の位相一致または180度の位相シフトとして定義される。
注目スコア行列の要素値を著しく増幅する。
この問題はQwenモデルにも適用される。
さらに、ルート平均二乗誤差(RMSE)を用いて数値的精度を評価し、最終生成したテキストや動画を高精度な注意力で生成したものと比較する。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Detection of Anomalies in Multivariate Time Series Using Ensemble
Techniques [3.2422067155309806]
最終的な決定に向けて,複数の基本モデルを組み合わせたアンサンブル手法を提案する。
また,ロジスティック回帰器を用いて基本モデルの出力を結合する半教師付き手法を提案する。
異常検出精度の点での性能改善は、教師なしモデルでは2%、半教師なしモデルでは少なくとも10%に達する。
論文 参考訳(メタデータ) (2023-08-06T17:51:22Z) - A machine learning approach to the prediction of heat-transfer
coefficients in micro-channels [4.724825031148412]
2相熱伝達係数(HTC)の正確な予測は、コンパクト熱交換器の最適設計と運転の鍵となる。
マルチ出力ガウスプロセス回帰 (GPR) を用いて, マイクロチャネル内のHTCを, 質量流量, 熱流束, システム圧力, チャネル径, 長さの関数として推定する。
論文 参考訳(メタデータ) (2023-05-28T15:48:01Z) - Optimal Algorithms for the Inhomogeneous Spiked Wigner Model [89.1371983413931]
不均一な問題に対する近似メッセージパッシングアルゴリズム(AMP)を導出する。
特に,情報理論の閾値よりも大きい信号と雑音の比を必要とする既知のアルゴリズムが,ランダムよりも優れた処理を行うための統計的・計算的ギャップの存在を同定する。
論文 参考訳(メタデータ) (2023-02-13T19:57:17Z) - Rethinking Attention Mechanism in Time Series Classification [6.014777261874646]
我々は、フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより、アテンション機構の効率性と性能を向上する。
本稿では,時系列におけるノイズの影響を低減し,FMLAの冗長性を低減できる簡易だが効果的なマスク機構を提案する。
85のUCR2018データセットを用いて、このアルゴリズムを11のよく知られたデータセットと比較し、このアルゴリズムがトップ1の精度で同等の性能を持つことを示す。
論文 参考訳(メタデータ) (2022-07-14T07:15:06Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Message Passing Descent for Efficient Machine Learning [4.416484585765027]
機械学習におけるbfデータフィッティング(DF)問題に対する反復最適化手法を提案する。
このアプローチは、df問題のbfグラフィカルモデル表現に依存している。
本稿では,モデルDF関数の多項式表現に依存する bf Message Passage Descent アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-16T12:22:54Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。