論文の概要: NLI:Non-uniform Linear Interpolation Approximation of Nonlinear Operations for Efficient LLMs Inference
- arxiv url: http://arxiv.org/abs/2602.02988v1
- Date: Tue, 03 Feb 2026 01:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.183471
- Title: NLI:Non-uniform Linear Interpolation Approximation of Nonlinear Operations for Efficient LLMs Inference
- Title(参考訳): NLI:非一様線形補間法による効率的なLLM推論のための非線形演算の近似
- Authors: Jiangyong Yu, Xiaomeng Han, Xing Hu, Chen Xu, Zhe Jiang, Dawei Yang,
- Abstract要約: 非一様線形補間(NLI)と呼ばれるキャリブレーションのない動的プログラミング最適化フレームワークを提案する。
NLIは様々な非線形関数を効率的に近似することができ、大きな言語モデルへのシームレスな統合を可能にする。
ハードウェア実験により、NLIエンジンは計算効率を4倍以上に向上することが示された。
- 参考スコア(独自算出の注目度): 17.605039499074074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of tasks, but their deployment is often constrained by substantial memory footprints and computational costs. While prior work has achieved significant progress in compressing and accelerating linear layers, nonlinear layers-such as SiLU, RMSNorm, and Softmax-still heavily depend on high-precision floating-point operations. In this paper, we propose a calibration-free, dynamic-programming-optimal, and hardware-friendly framework called Non-uniform Linear Interpolation (NLI). NLI is capable of efficiently approximating a variety of nonlinear functions, enabling seamless integration into LLMs and other deep neural networks with almost no loss in accuracy. NLI ingeniously recasts cutpoint selection as a dynamic-programming problem, achieving the globally minimal interpolation error in O(MxN2) time via Bellman's optimality principle. Based on the NLI algorithm, we also design and implement a plug-and-play universal nonlinear computation unit. Hardware experiments demonstrate that the NLI Engine achieves more than 4x improvement in computational efficiency compared to the state-of-the-art designs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクにわたって顕著な性能を示してきたが、その展開は、かなりのメモリフットプリントと計算コストによって制約されることが多い。
従来の研究は線形層を圧縮・加速する上で大きな進歩を遂げてきたが、SiLU、RMSNorm、Softmaxといった非線形層は高精度浮動小数点演算に大きく依存している。
本稿では,非一様線形補間(NLI)と呼ばれるキャリブレーションフリー,動的プログラミング最適化,ハードウェアフレンドリーなフレームワークを提案する。
NLIは、様々な非線形関数を効率的に近似することができ、LLMや他の深層ニューラルネットワークへのシームレスな統合を、ほぼ精度を損なうことなく実現している。
NLIは、カットポイント選択を動的プログラミング問題として再キャストし、ベルマンの最適原理を通したO(MxN2)時間における極小補間誤差を達成する。
また,NLIアルゴリズムに基づいて,汎用非線形計算ユニットの設計と実装を行う。
ハードウェア実験により、NLIエンジンは最先端の設計に比べて計算効率が4倍以上向上していることが示された。
関連論文リスト
- Rethinking Nonlinearity: Trainable Gaussian Mixture Modules for Modern Neural Architectures [0.9778425765923312]
普遍密度近似ガウス混合モデル(GMM)に基づく新しい微分可能モジュールのクラスを導入する。
確率的制約を緩和することにより、GMNMは多様なニューラルネットワークと訓練されたエンドツーエンドメソッドにシームレスに統合できる。
実験では、GMNMを、幅広い機械学習アプリケーションにおける効率性と精度を高めるための強力で柔軟なモジュールとして実証した。
論文 参考訳(メタデータ) (2025-10-08T05:20:34Z) - Efficient Large Language Model Inference with Neural Block Linearization [51.619870789584525]
本稿では,トランスフォーマーモデル推論を高速化する新しいフレームワークであるNeural Block Linearization (NBL)を紹介する。
NBLは、線形最小平均正方形誤差推定器から導かれる線形近似で自己アテンション層を置き換える。
実験では、NBLは競争精度を維持しながら、顕著な計算スピードアップを達成する。
論文 参考訳(メタデータ) (2025-05-27T12:01:43Z) - Langevin Multiplicative Weights Update with Applications in Polynomial Portfolio Management [14.310970006771717]
非漸近収束解析により,LMvinvinをベースとした勾配局所最小値が得られた。
LMvinvinアルゴリズムは,非漸近収束解析による大域最小解法であることを示す。
論文 参考訳(メタデータ) (2025-02-26T15:13:08Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - NN-LUT: Neural Approximation of Non-Linear Operations for Efficient
Transformer Inference [9.329021390526124]
GELU、Layer normalization、Softmaxといった非線形演算は、トランスフォーマーモデルのブロックの構築には不可欠だがコストがかかる。
本稿では,効率的なトランスフォーマー推論のためのハードウェアフレンドリな近似フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-03T23:06:57Z) - Neural Spectrahedra and Semidefinite Lifts: Global Convex Optimization
of Polynomial Activation Neural Networks in Fully Polynomial-Time [31.94590517036704]
2次活性化を持つ2層数値ネットワークの完全凸最適化定式化を考案する。
本研究では,全入力データの複雑度とサンプルサイズが半定常的なニューラル・グローバル最適化であることを示した。
提案手法は, 標準バックプロパゲーション法に比べ, テスト精度が大幅に向上した。
論文 参考訳(メタデータ) (2021-01-07T08:43:01Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。