論文の概要: LAMP: Look-Ahead Mixed-Precision Inference of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.21623v1
- Date: Thu, 29 Jan 2026 12:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.804969
- Title: LAMP: Look-Ahead Mixed-Precision Inference of Large Language Models
- Title(参考訳): LAMP: 大規模言語モデルのルックアヘッド混合精度推定
- Authors: Stanislav Budzinskiy, Marian Gloser, Tolunay Yilmaz, Ying Hong Tham, Yuanyi Lin, Wenyi Fang, Fan Wu, Philipp Petersen,
- Abstract要約: 本稿では,変圧器推論に着目した合成リッチ関数の浮動小数点計算について述べる。
我々は、より正確に計算するために$g(mathrmx)$の小さな部分集合を選択し、他の全ての計算をより低い精度で行うための適応戦略を提供する。
このアルゴリズムの有効性をGPT-2モデルで数値的に検討し、すでに非常に低い再計算率で最大2桁の精度向上が可能であることを実証した。
- 参考スコア(独自算出の注目度): 2.845351470902218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixed-precision computations are a hallmark of the current stage of AI, driving the progress in large language models towards efficient, locally deployable solutions. This article addresses the floating-point computation of compositionally-rich functions, concentrating on transformer inference. Based on the rounding error analysis of a composition $f(g(\mathrm{x}))$, we provide an adaptive strategy that selects a small subset of components of $g(\mathrm{x})$ to be computed more accurately while all other computations can be carried out with lower accuracy. We then explain how this strategy can be applied to different compositions within a transformer and illustrate its overall effect on transformer inference. We study the effectiveness of this algorithm numerically on GPT-2 models and demonstrate that already very low recomputation rates allow for improvements of up to two orders of magnitude in accuracy.
- Abstract(参考訳): 混合精度計算は、AIの現在のステージの目印であり、大規模言語モデルの進歩を効率的でローカルにデプロイ可能なソリューションへと導く。
本稿では,変圧器推論に着目した合成リッチ関数の浮動小数点計算について述べる。
合成 $f(g(\mathrm{x}))$ の丸め誤差解析に基づいて、より正確に計算するために $g(\mathrm{x})$ の小さな部分集合を選択する適応戦略を提供する。
次に、この戦略が変圧器内の異なる構成にどのように適用できるかを説明し、その全体的な効果が変圧器の推論に与える影響を説明する。
このアルゴリズムの有効性をGPT-2モデルで数値的に検討し、すでに非常に低い再計算率で最大2桁の精度向上が可能であることを実証した。
関連論文リスト
- Transformers Meet In-Context Learning: A Universal Approximation Theory [25.513848079509653]
我々は、変換器が文脈内学習を実現する方法を理解するために、普遍近似理論を開発する。
関数の一般的なクラスに対して、いくつかのノイズの多いインコンテキストの例に基づいて予測できる変換器を構築する方法を示す。
論文 参考訳(メタデータ) (2025-06-05T16:12:51Z) - Mixed precision accumulation for neural network inference guided by componentwise forward error analysis [2.4374097382908477]
ニューラルネットワークの推論のための数学的に確立された混合精度蓄積戦略を提案する。
我々の戦略は、ニューラルネットワークの前方通過におけるエラーの伝播を説明する新しいコンポーネントワイズ・フォワード・エラー分析に基づいている。
論文 参考訳(メタデータ) (2025-03-19T09:19:11Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。
その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:23:29Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Quasi-parametric rates for Sparse Multivariate Functional Principal
Components Analysis [0.0]
最適化問題の解として固有値が表現可能であることを示す。
固有要素の平均2乗再構成誤差に基づいてミニマックス下限を定め、この手順がミニマックス感覚に最適な分散を有することを証明した。
論文 参考訳(メタデータ) (2022-12-19T13:17:57Z) - Square Root Bundle Adjustment for Large-Scale Reconstruction [56.44094187152862]
QR分解によるランドマーク変数のnullspace marginalizationに依存するバンドル調整問題の新たな定式化を提案する。
平方根束調整と呼ばれる私たちのアプローチは、一般的に使用されるSchur補完トリックと代数的に等価です。
BALデータセットを用いた実世界での実験では、提案されたソルバが単一の精度でも平均的等しく正確なソリューションで達成できることを示す。
論文 参考訳(メタデータ) (2021-03-02T16:26:20Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Finding the optimal cluster state configuration. Minimization of one-way
quantum computation errors [0.0]
すべての可能なクラスタ状態設定から、最小のエラーを与えるものを選択します。
我々は最小限の誤差で普遍ガウス計算を実装するための最適戦略を見出した。
論文 参考訳(メタデータ) (2020-03-20T10:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。