論文の概要: QUILL: An Algorithm-Architecture Co-Design for Cache-Local Deformable Attention
- arxiv url: http://arxiv.org/abs/2511.13679v1
- Date: Mon, 17 Nov 2025 18:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.674658
- Title: QUILL: An Algorithm-Architecture Co-Design for Cache-Local Deformable Attention
- Title(参考訳): QUILL:キャッシュローカルで変形可能なアテンションのためのアルゴリズムアーキテクチャの共同設計
- Authors: Hyunwoo Oh, Hanning Chen, Sanggeon Yun, Yang Ni, Wenjun Huang, Tamoghno Das, Suyeon Jang, Mohsen Imani,
- Abstract要約: QUILLはスケジュール対応のアクセラレータで、変形可能な注意をキャッシュフレンドリでシングルパスの作業に変換する。
融合したMSDeformAttnエンジンは、中間体をこぼすことなく1回のパスで、ソフトマックス、アグリゲーション、最終的なプロジェクション(W'm)を実行する。
- 参考スコア(独自算出の注目度): 12.542462936966844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deformable transformers deliver state-of-the-art detection but map poorly to hardware due to irregular memory access and low arithmetic intensity. We introduce QUILL, a schedule-aware accelerator that turns deformable attention into cache-friendly, single-pass work. At its core, Distance-based Out-of-Order Querying (DOOQ) orders queries by spatial proximity; the look-ahead drives a region prefetch into an alternate buffer--forming a schedule-aware prefetch loop that overlaps memory and compute. A fused MSDeformAttn engine executes interpolation, Softmax, aggregation, and the final projection (W''m) in one pass without spilling intermediates, while small tensors are kept on-chip and surrounding dense layers run on integrated GEMMs. Implemented as RTL and evaluated end-to-end, QUILL achieves up to 7.29x higher throughput and 47.3x better energy efficiency than an RTX 4090, and exceeds prior accelerators by 3.26-9.82x in throughput and 2.01-6.07x in energy efficiency. With mixed-precision quantization, accuracy tracks FP32 within <=0.9 AP across Deformable and Sparse DETR variants. By converting sparsity into locality--and locality into utilization--QUILL delivers consistent, end-to-end speedups.
- Abstract(参考訳): 変形可能な変換器は最先端の検出を提供するが、不規則なメモリアクセスと演算強度の低いハードウェアにはあまり対応しない。
我々は、変形可能な注意をキャッシュフレンドリーでシングルパスの作業に変換するスケジュール対応アクセラレータであるQUILLを紹介した。
ルックアヘッドは、領域プレフェッチを別のバッファに駆動し、メモリと計算を重複させるスケジュール対応プリフェッチループを生成する。
融合MSDeformAttnエンジンは、中間体をこぼさずに補間、ソフトマックス、アグリゲーション、最終射影(W'm)を1回のパスで実行し、小さなテンソルはオンチップに保持され、周囲の高密度層は統合GEMM上で動作する。
RTLとして実装され、エンドツーエンドで評価されたQUILLは、RTX 4090よりも最大7.29倍高いスループットと47.3倍のエネルギー効率を実現し、前回の加速器のスループットは3.26-9.82倍、エネルギー効率は2.01-6.07倍である。
混合精度量子化により、精度トラックFP32はデフォルマブルおよびスパースDETRの変種にまたがる<=0.9 AP内にある。
スパーシリティをローカリティとローカリティに変換することで、-QUILLは一貫性のあるエンドツーエンドのスピードアップを提供する。
関連論文リスト
- Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - Panorama: Fast-Track Nearest Neighbors [22.201421121801218]
本稿では,機械学習によるアプローチであるPANORAMAを提案する。
PANORAMAは、2-30$times$ end-to-end speedupをリコールロスなしで利用できることを示す。
論文 参考訳(メタデータ) (2025-10-01T06:38:45Z) - PointODE: Lightweight Point Cloud Learning with Neural Ordinary Differential Equations on Edge [0.8403582577557918]
本稿では,残差接続を持つブロックの連続的スタックに基づいて,ポイントクラウド特徴抽出のためのパラメータ効率のよいアーキテクチャを提案する。
PointODEは、合成データセットと実世界のデータセットの両方の最先端モデルと競合する精度を示す。
論文 参考訳(メタデータ) (2025-05-31T07:34:54Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning [5.236787242129767]
本稿では,ポイント・ボクセル変換器 (PVT) と呼ばれる新しい3次元変換器を提案する。
提案手法はトランスフォーマーアーキテクチャの可能性を完全に活用し,効率よく正確な認識を行う。
論文 参考訳(メタデータ) (2021-08-13T06:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。