論文の概要: LoKA: Low-precision Kernel Applications for Recommendation Models At Scale
- arxiv url: http://arxiv.org/abs/2605.10886v2
- Date: Wed, 13 May 2026 20:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.885439
- Title: LoKA: Low-precision Kernel Applications for Recommendation Models At Scale
- Title(参考訳): LoKA: 大規模リコメンデーションモデルのための低精度カーネルアプリケーション
- Authors: Liang Luo, Yinbin Ma, Quanyu Zhu, Vasiliy Kuznetsov, Yuxin Chen, Jian Jiao, Jiecao Yu, Buyun Zhang, Tongyi Tang, Xiaohan Wei, Yanli Zhao, Zeliang Chen, Yuchen Hao, Venkatesh Ranganathan, Sandeep Parab, Yantao Yao, Maxim Naumov, Chunzhi Yang, Shen Li, Ellie Wen, Wenlin Chen, Santanu Kolay, Chunqiang Tang,
- Abstract要約: 大規模レコメンデーションモデル(LRM)にFP8を実用化するフレームワークであるLoKAを提案する。
LoKA Probeは、アクティベーションとウェイト統計を学習し、層ごとのエラーを定量化する、統計的に基礎付けられたオンラインベンチマーク手法である。
LoKA Dispatchは、LoKA Probeの統計情報を利用して最速のFP8カーネルを選択するランタイムである。
- 参考スコア(独自算出の注目度): 19.273840159657983
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent GPU generations deliver significantly higher FLOPs using lower-precision arithmetic, such as FP8. While successfully applied to large language models (LLMs), its adoption in large recommendation models (LRMs) has been limited. This is because LRMs are numerically sensitive, dominated by small matrix multiplications (GEMMs) followed by normalization, and trained in communication-intensive environments. Applying FP8 directly to LRMs often degrades model quality and prolongs training time. These challenges are inherent to LRM workloads and cannot be resolved merely by introducing better FP8 kernels. Instead, a system-model co-design approach is needed to successfully integrate FP8. We present LoKA (Low-precision Kernel Applications), a framework that makes FP8 practical for LRMs through three principles: profile under realistic distributions to know where low precision is safe, co-design model components with hardware to expand where it is safe, and orchestrate across kernel libraries to maximize the gains. Concretely, LoKA Probe is a statistically grounded, online benchmarking method that learns activation and weight statistics, and quantifies per-layer errors. This process pinpoints safe and unsafe, fast and slow sites for FP8 adoption. LoKA Mods is a set of reusable model adaptations that improve both numerical stability and execution efficiency with FP8. LoKA Dispatch is a runtime that leverages the statistical insights from LoKA Probe to select the fastest FP8 kernel that satisfies the accuracy requirements.
- Abstract(参考訳): 最近のGPU世代は、FP8のような低精度演算を用いてFLOPを著しく高めている。
大規模言語モデル(LLM)への適用は成功したが、大規模なレコメンデーションモデル(LRM)への採用は制限されている。
これは、LEMは数値的に敏感であり、小さな行列乗法(GEMM)に支配され、その後正規化され、通信集約環境で訓練されるためである。
FP8を直接LRMに適用すると、モデルの品質が低下し、トレーニング時間が短縮されることが多い。
これらの課題は LRM のワークロードに固有のものであり、FP8 カーネルの改善によってのみ解決できない。
代わりに、FP8をうまく統合するにはシステムモデルの共同設計アプローチが必要である。
提案するLoKA(Low-precision Kernel Applications)は,低精度の安全な場所を知るために,現実的な分布の下でFP8を実用化するフレームワークである。
具体的には、LoKA Probeは、アクティベーションとウェイト統計を学習し、層ごとのエラーを定量化する、統計的に基礎付けられたオンラインベンチマーク手法である。
このプロセスは、安全で安全でない、高速で遅いサイトをFP8採用のために特定する。
LoKA ModsはFP8で数値安定性と実行効率を改善する再利用可能なモデル適応のセットである。
LoKA Dispatchは、LoKA Probeの統計情報を利用して、精度要件を満たす最速のFP8カーネルを選択するランタイムである。
関連論文リスト
- FALQON: Accelerating LoRA Fine-tuning with Low-Bit Floating-Point Arithmetic [9.192731482247103]
FP8のような低ビット浮動小数点(FP)フォーマットは、モデルトレーニングにおいて大きな加速とメモリ節約を提供する。
本稿では,ローランク適応(LoRA)計算経路から量子化オーバーヘッドを除去する新しいフレームワークであるFALQONを提案する。
FALQONは、同じレベルの精度で既存の量子化LoRA法よりも約3$times$のトレーニングスピードアップを達成する。
論文 参考訳(メタデータ) (2025-10-28T04:44:49Z) - Towards Fully FP8 GEMM LLM Training at Scale [77.97607456493257]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。