論文の概要: FlashFormer: Whole-Model Kernels for Efficient Low-Batch Inference
- arxiv url: http://arxiv.org/abs/2505.22758v1
- Date: Wed, 28 May 2025 18:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.471194
- Title: FlashFormer: Whole-Model Kernels for Efficient Low-Batch Inference
- Title(参考訳): FlashFormer: 効率的な低バッチ推論のための全体モデルカーネル
- Authors: Aniruddha Nrusimha, William Brandon, Mayank Mishra, Yikang Shen, Rameswar Panda, Jonathan Ragan-Kelley, Yoon Kim,
- Abstract要約: FlashFormerは、トランスフォーマーベースの大規模言語モデルの単一バッチ推論を高速化するための概念実証カーネルである。
我々は既存の最先端推論カーネルと比較して非自明なスピードアップを観察する。
- 参考スコア(独自算出の注目度): 42.19497037894398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The size and compute characteristics of modern large language models have led to an increased interest in developing specialized kernels tailored for training and inference. Existing kernels primarily optimize for compute utilization, targeting the large-batch training and inference settings. However, low-batch inference, where memory bandwidth and kernel launch overheads contribute are significant factors, remains important for many applications of interest such as in edge deployment and latency-sensitive applications. This paper describes FlashFormer, a proof-of-concept kernel for accelerating single-batch inference for transformer-based large language models. Across various model sizes and quantizations settings, we observe nontrivial speedups compared to existing state-of-the-art inference kernels.
- Abstract(参考訳): 現代の大規模言語モデルのサイズと計算特性は、訓練と推論に適した特別なカーネルの開発への関心を高めている。
既存のカーネルは主に計算利用のために最適化されており、大規模バッチトレーニングと推論設定をターゲットにしている。
しかし、メモリ帯域幅とカーネルの起動オーバーヘッドが寄与する低バッチ推論は、エッジデプロイメントやレイテンシに敏感なアプリケーションなど、多くのアプリケーションにとって重要な要素である。
本稿では,トランスフォーマーを用いた大規模言語モデルの単一バッチ推論を高速化するための概念実証カーネルであるFlashFormerについて述べる。
様々なモデルサイズと量子化設定において、既存の最先端推論カーネルと比較して非自明なスピードアップを観測する。
関連論文リスト
- Scalable Gaussian Processes with Low-Rank Deep Kernel Decomposition [7.532273334759435]
カーネルはガウス過程(GP)モデルにおいて、事前の信念とデータ構造を符号化する鍵である。
ディープカーネル学習は、標準的なパラメトリック形式を適用する前に、ニューラルネットワークを介して入力を入力することで、カーネルの柔軟性を向上させる。
我々は、ニューラルネットワークが直接低ランクカーネルを表現する、完全にデータ駆動でスケーラブルなディープカーネル表現を導入する。
論文 参考訳(メタデータ) (2025-05-24T05:42:11Z) - Fast training of large kernel models with delayed projections [14.459817519150997]
データサイズとモデルサイズの両方で効率よくスケールできるカーネルマシンを構築するための新しい手法を提案する。
提案アルゴリズムでは,PSGD(Preconditioned Gradient Descent)に遅延プロジェクションを導入し,従来よりもはるかに大きなモデルのトレーニングを可能にする。
提案アルゴリズムであるEigenPro4を検証し,既存の手法よりも格段に高速な学習速度を示しながら,比較あるいはより優れた分類精度を維持した。
論文 参考訳(メタデータ) (2024-11-25T18:42:13Z) - Amortized Inference for Gaussian Process Hyperparameters of Structured
Kernels [5.1672267755831705]
異なるデータセットに対するパラメータ推論の補正は、トレーニング時間を劇的に高速化するための有望なアプローチである。
本稿では,固定化されたカーネル構造ではなく,完全なカーネル構造ファミリ上でのカーネルパラメータのアモータイズを提案する。
大規模なカーネルとデータセットの競合テスト性能と合わせて,推論時間を大幅に短縮することを示す。
論文 参考訳(メタデータ) (2023-06-16T13:02:57Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。