論文の概要: Accelerating Attention with Basis Decomposition
- arxiv url: http://arxiv.org/abs/2510.01718v1
- Date: Thu, 02 Oct 2025 06:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.029913
- Title: Accelerating Attention with Basis Decomposition
- Title(参考訳): 基底分解による注意の加速
- Authors: Jialin Zhao,
- Abstract要約: BD注意(BD Attention, BDA)は、最初の無意味なアルゴリズムによる注意の再構成である。
BDA は Basis Decomposition (BD) の単純な行列恒等式によって実現され、マルチヘッド射影をコンパクトな形式に再構成する。
BDAは鍵/値の投射が32%速く、重量が25%小さくなり、一方、エンドツーエンドのパープレキシティ(PPL)は0.02%(FP16)または0.0004%(FP32)に増加する。
- 参考スコア(独自算出の注目度): 2.0982532131603966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention is a core operation in large language models (LLMs) and vision-language models (VLMs). We present BD Attention (BDA), the first lossless algorithmic reformulation of attention. BDA is enabled by a simple matrix identity from Basis Decomposition (BD), which restructures multi-head projections into a compact form while preserving exact outputs. Unlike I/O-aware system optimizations such as FlashAttention, BDA provides a mathematically guaranteed acceleration that is architecture-agnostic. On DeepSeek-V2-Lite (16B, FP16), BDA requires only 4s of offline preparation with no retraining required and, on modern GPUs, achieves 32% faster key/value projections and 25% smaller weights, while increasing end-to-end perplexity (PPL) by just 0.02% (FP16) or 0.0004% (FP32), a negligible effect on model performance. These results position BDA as the first theoretically exact method for lossless attention acceleration that is complementary to existing engineering-level optimizations. Our code is available at https://github.com/abcbdf/basis-decomposition-official.
- Abstract(参考訳): 注意(英: Attention)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)における中核的な操作である。
BD注意(BD Attention, BDA)は、最初の無意味なアルゴリズムによる注意の再構成である。
BDA は Basis Decomposition (BD) の単純な行列単位によって実現され、これは正確な出力を保ちながら、マルチヘッド射影をコンパクトな形式に再構成する。
FlashAttentionのようなI/Oシステム最適化とは異なり、BDAはアーキテクチャに依存しない数学的に保証された加速度を提供する。
DeepSeek-V2-Lite(16B, FP16)では、BDAはトレーニングを必要とせず、4秒のオフライン準備しか必要とせず、最新のGPUでは32%高速なキー/バリュープロジェクションと25%より小さなウェイトを実現している。
これらの結果は、BDAを既存の工学レベルの最適化と相補的な無関心加速のための最初の理論的に正確な方法として位置づけている。
私たちのコードはhttps://github.com/abcbdf/basis-decomposition-officialで公開されています。
関連論文リスト
- PRISM: Distributed Inference for Foundation Models at Edge [73.54372283220444]
PRISMは、エッジデバイス上での分散トランスフォーマー推論のための通信効率と計算アウェア戦略である。
ViT,BERT,GPT-2のPRISMを多種多様なデータセットで評価した。
論文 参考訳(メタデータ) (2025-07-16T11:25:03Z) - Dimensionality Reduction Techniques for Global Bayesian Optimisation [1.433758865948252]
減次元部分空間におけるBOの実行に次元還元を適用した潜在空間ベイズ最適化について検討する。
我々は、より複雑なデータ構造や一般的なDRタスクを管理するために、変分オートエンコーダ(VAE)を使用している。
そこで本研究では,分子生成などのタスク用に設計され,より広い最適化目的のためにアルゴリズムを再構成する実装において,いくつかの重要な補正を提案する。
論文 参考訳(メタデータ) (2024-12-12T11:27:27Z) - EBFT: Effective and Block-Wise Fine-Tuning for Sparse LLMs [68.41135269685576]
スパースLLMを微調整する既存の方法は、しばしば資源集約的な要求と高い再訓練コストに悩まされる。
再構成誤差の最小化に基づくスパルスLLMの微調整のための効率的かつ高速なフレームワークを提案する。
提案手法では, キャリブレーションのための小さなデータセットをサンプリングし, バックプロパゲーションを利用してブロックワイズ復元誤差を反復的に最適化する。
論文 参考訳(メタデータ) (2024-02-19T09:55:32Z) - Efficient Architecture Search via Bi-level Data Pruning [70.29970746807882]
この研究は、DARTSの双方向最適化におけるデータセット特性の重要な役割を探求する先駆者となった。
我々は、スーパーネット予測力学を計量として活用する新しいプログレッシブデータプルーニング戦略を導入する。
NAS-Bench-201サーチスペース、DARTSサーチスペース、MobileNetのようなサーチスペースに関する総合的な評価は、BDPがサーチコストを50%以上削減することを検証する。
論文 参考訳(メタデータ) (2023-12-21T02:48:44Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Constructing Stronger and Faster Baselines for Skeleton-based Action
Recognition [19.905455701387194]
骨格に基づく行動認識のための効率的なグラフ畳み込みネットワーク(GCN)のベースラインを提案する。
NTU RGB+D 60 と 120 の2つの大規模データセットでは、提案されたEfficientGCN-B4 ベースラインは、他の State-Of-The-Art (SOTA) メソッドよりも優れている。
論文 参考訳(メタデータ) (2021-06-29T07:09:11Z) - BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio
Sparsification [3.3711251611130337]
エネルギー消費を低減し、Long Short-Term Memory (LSTM) ニューラルネットワークアクセラレータの速度を改善するためのハードウェアフレンドリーなプランニングアルゴリズムを提示する。
その結果、提案された加速器は最大272%の有効GOPS/Wを提供することができ、パープレキシティエラーはPTBデータセットの1.4%まで低減される。
論文 参考訳(メタデータ) (2021-01-07T18:23:48Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。