論文の概要: CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs
- arxiv url: http://arxiv.org/abs/2605.19269v2
- Date: Wed, 20 May 2026 17:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.337003
- Title: CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs
- Title(参考訳): CODA:トランスフォーマーブロックをGEMM-Epilogueプログラムとして書き換える
- Authors: Han Guo, Jack Zhang, Arjun Menon, Driss Guessous, Vijay Thakkar, Yoon Kim, Tri Dao,
- Abstract要約: CODAは、これらの計算をGEMM+epilogueプログラムとして表現するGPUカーネル抽象化である。
我々は,CODAがフレームワークレベルの生産性とハードウェアレベルの効率を両立させるための実践的な方法を提供することを示した。
- 参考スコア(独自算出の注目度): 48.961770224590204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer training systems are built around dense linear algebra, yet a nontrivial fraction of end-to-end time is spent on surrounding memory-bound operators. Normalization, activations, residual updates, reductions, and related computations repeatedly move large intermediate tensors through global memory while performing little arithmetic, making data movement an increasingly important bottleneck in otherwise highly optimized training stacks. We introduce CODA, a GPU kernel abstraction that expresses these computations as GEMM-plus-epilogue programs. CODA is based on the observation that many Transformer operators exposed as separate framework kernels can be algebraically reparameterized to execute while a GEMM output tile remains on chip, before it is written to memory. The abstraction fixes the GEMM mainloop and exposes a small set of composable epilogue primitives for scaling, reductions, pairwise transformations, and accumulation. This constrained interface preserves the performance structure of expert-written GEMMs while remaining expressive enough to cover nearly all non-attention computation in the forward and backward pass of a standard Transformer block. Across representative Transformer workloads, both human- and LLM-authored CODA kernels achieve high performance, suggesting that GEMM-plus-epilogue programming offers a practical path toward combining framework-level productivity with hardware-level efficiency.
- Abstract(参考訳): 変圧器のトレーニングシステムは密度線形代数を中心に構築されているが、メモリバウンド作用素の周辺には、端から端までの非自明な分断が費やされている。
正規化、アクティベーション、残留更新、縮小、関連する計算は、大きな中間テンソルをグローバルメモリに繰り返し移動させ、演算をほとんど行わず、データ移動は高度に最適化されたトレーニングスタックにおいてますます重要なボトルネックとなる。
我々は,これらの計算をGEMM+epilogueプログラムとして表現するGPUカーネルの抽象化であるCODAを紹介する。
CODAは、異なるフレームワークカーネルとして公開された多くのTransformer演算子を代数的に再パラメータ化して実行し、GEMM出力タイルはメモリに書き込む前にチップ上に残る、という観察に基づいている。
この抽象化はGEMMのメインループを修正し、スケーリング、縮小、ペアワイズ変換、蓄積のための構成可能なエピローグプリミティブの小さなセットを公開する。
この制約されたインタフェースは、専門家によって書かれたGEMMの性能構造を保ちながら、標準のTransformerブロックの前方および後方通過におけるほとんどすべての非注意計算をカバーできるような表現性を維持している。
代表的Transformerワークロード全体において、人間とLLMによるCODAカーネルは高いパフォーマンスを実現しており、GEMM+epilogueプログラミングはフレームワークレベルの生産性とハードウェアレベルの効率を両立させるための実践的な道筋を提供することを示唆している。
関連論文リスト
- Improving the Performance and Learning Stability of Parallelizable RNNs Designed for Ultra-Low Power Applications [1.226598527858578]
Bistable Memory Recurrent Unit (BMRU) は、超低消費電力RNNのハードウェアとソフトウェアの共同設計を可能にするために導入された。
BMRUパフォーマンスは複雑なシーケンシャルタスクにおいて並列化可能なRNNよりも遅れている。
本稿では,永続記憶を保ちながらフローを復元し,時間経過とともにスキップ接続を生成する累積更新定式化を提案する。
論文 参考訳(メタデータ) (2026-05-12T09:39:33Z) - LP-GEMM: Integrating Layout Propagation into GEMM Operations [0.20388938295521575]
本稿では,逐次GEMM操作間のパッキング・パブリッシングを可能にするGEMMカーネルの分解であるLP-GEMMを紹介する。
ベンダー最適化ライブラリと比較して,Intel x86上でのOpenBLAの平均速度は2.25倍である。
論文 参考訳(メタデータ) (2026-04-06T11:24:34Z) - Echo State Transformer: Attention Over Finite Memories [2.118933003468525]
本稿では,逐次データ処理の課題をエレガントに解決するハイブリッドアーキテクチャであるEcho State Transformers(EST)を紹介する。
ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。
ESTは5つのカテゴリのうち2つで総合的にランク付けし、分類と異常検出タスクにおける最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-25T09:56:25Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.05657299071648]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers [0.0]
本稿では、パス積分形式論の枠組みの中で、そのコアメカニズムを再解釈することにより、トランスフォーマーアルゴリズムの一般化された定式化を提案する。
よりコンパクトで効率的な表現が得られ、シーケンスのコンテキスト情報をメモリのようなセグメントに凝縮する。
本稿では,この手法の有効性をPasskey検索タスクと要約タスクで検証し,提案手法が履歴情報を保存し,メモリ使用率とシーケンス長を線形に拡張することを示す。
論文 参考訳(メタデータ) (2024-05-07T19:05:26Z) - Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。
本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。