Fugu-MT 論文翻訳(概要): FlashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness

論文の概要: FlashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness

arxiv url: http://arxiv.org/abs/2412.03317v1
Date: Wed, 04 Dec 2024 13:52:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.683536
Title: FlashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness
Title（参考訳）: ナプキンのフラッシュアテンション:ディープラーニングIO認識へのダイアグラム的アプローチ
Authors: Vincent Abbott, Gioele Zardini,
Abstract要約: FlashAttentionのようなメソッドは、不要なデータ転送を避けることによって、ネイティブのPyTorchよりもx6パフォーマンスの向上を実現している。本稿では,学習モデルに対するダイアグラム的アプローチを提案する。 AmpereはSMあたり13個のワープに収まるが、Hopperはオーバーラップを改善し、1.22個のPFLOPを達成できる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optimizing deep learning algorithms currently requires slow, manual derivation, potentially leaving much performance untapped. Methods like FlashAttention have achieved a x6 performance improvement over native PyTorch by avoiding unnecessary data transfers, but required three iterations over three years. Automated compiled methods have consistently lagged behind. GPUs are limited by both transfers to processors and available compute, with transfer bandwidth having improved at a far slower pace. Already, transfer bandwidth accounts for 46% of GPU energy costs. This indicates the future of energy and capital-efficient algorithms relies on improved consideration of transfer costs (IO-awareness) and a systematic method for deriving optimized algorithms. In this paper, we present a diagrammatic approach to deep learning models which, with simple relabelings, derive optimal implementations and performance models that consider low-level memory. Diagrams generalize down the GPU hierarchy, providing a universal performance model for comparing hardware and quantization choices. Diagrams generate pseudocode, which reveals the application of hardware-specific features such as coalesced memory access, tensor core operations, and overlapped computation. We present attention algorithms for Ampere, which fits 13 warps per SM (FlashAttention fits 8), and for Hopper, which has improved overlapping and may achieve 1.32 PFLOPs.
Abstract（参考訳）: 現在、ディープラーニングアルゴリズムを最適化するには、遅い手動の導出が必要であり、パフォーマンスが失われる可能性がある。 FlashAttentionのようなメソッドは、不要なデータ転送を避けることでネイティブのPyTorchよりもx6パフォーマンスの改善を実現しているが、3年間に3回のイテレーションが必要だった。自動コンパイルされたメソッドは、常に遅れを取っている。 GPUはプロセッサへの転送と利用可能な計算の両方によって制限されており、転送帯域幅ははるかに遅い速度で改善されている。すでに転送帯域幅はGPUエネルギーの46%を占めている。このことは、エネルギーと資本効率のアルゴリズムの将来は、転送コスト(IO認識性)の改善と最適化アルゴリズムを導出するための体系的な方法に依存していることを示している。本稿では,低レベルメモリを考慮した最適実装と性能モデルを提案する。ダイアグラムはGPU階層を一般化し、ハードウェアと量子化の選択を比較するための普遍的なパフォーマンスモデルを提供する。ダイアグラムは擬似コードを生成し、コレーテッドメモリアクセス、テンソルコア操作、重なり合う計算などのハードウェア固有の機能を適用する。 AmpereはSMあたり13ワープ(FlashAttention fits 8)、Hopperはオーバーラップを改善し、1.32PFLOPを実現する。

関連論文リスト

PICT -- A Differentiable, GPU-Accelerated Multi-Block PISO Solver for Simulation-Coupled Learning Tasks in Fluid Dynamics [59.38498811984876]
我々はPyTorchで符号化された可変圧単純化解器であるPICTをGPU(Graphics-Processing-unit)をサポートした流体シミュレータとして提案する。まず,様々なベンチマークにおいて,フォワードシミュレーションと導出した勾配の精度を検証した。 2次元, 3次元の複雑な乱流モデルの学習には, 解法によって得られる勾配が有効であることを示す。
論文参考訳（メタデータ） (2025-05-22T17:55:10Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。 KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文参考訳（メタデータ） (2024-11-26T04:03:14Z)
Implementation and Analysis of GPU Algorithms for Vecchia Approximation [0.8057006406834466]
Vecchia Approximationは計算複雑性を減らすために広く使われており、恥ずかしい並列アルゴリズムで計算することができる。 Vecchia Approximationのためにマルチコアソフトウェアが開発されたが、グラフィックス処理ユニット(GPU)上で動作するように設計されたソフトウェアは不足している。我々の新しい手法は他の2つより優れており、GpGpU Rパッケージに表示されます。
論文参考訳（メタデータ） (2024-07-03T01:24:44Z)
Deep Symbolic Optimization for Combinatorial Optimization: Accelerating Node Selection by Discovering Potential Heuristics [10.22111332588471]
本稿では,その利点を生かした,新しい記号的最適化学習フレームワークを提案する。 Dso4NSは高次元離散記号空間内の数学的表現の探索をガイドし、最高性能の数学的表現を解法に組み込む。実験では、Dso4NSが高品質な表現の学習に有効であることを示し、CPUマシンにおける既存のアプローチよりも優れていた。
論文参考訳（メタデータ） (2024-06-14T06:02:14Z)
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。 SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文参考訳（メタデータ） (2023-09-19T03:20:02Z)
Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文参考訳（メタデータ） (2023-08-22T04:54:30Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
Using Graph Neural Networks to model the performance of Deep Neural Networks [2.1151356984322307]
グラフ表現を取り入れた新しいパフォーマンスモデルを開発した。実験により,HalideモデルとTVMモデルと比較すると,予測誤差が7:75x,12x減少した。
論文参考訳（メタデータ） (2021-08-27T20:20:17Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)
Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文参考訳（メタデータ） (2021-04-30T16:19:07Z)
Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文参考訳（メタデータ） (2020-10-01T15:59:31Z)
ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators using Reinforcement Learning [5.251940442946459]
本研究では、与えられたモデルとデータフロースタイルに対して最適化されたHWリソース割り当てを見つけるために、ConfuciuXと呼ばれる自律的戦略を提案する。最適化されたハードウェア構成4.7から24倍の速度で収束する。
論文参考訳（メタデータ） (2020-09-04T04:59:26Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)
Optimizing Streaming Parallelism on Heterogeneous Many-Core Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文参考訳（メタデータ） (2020-03-05T21:18:21Z)
Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文参考訳（メタデータ） (2020-03-03T15:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。