論文の概要: Efficient Large Language Model Inference with Neural Block Linearization
- arxiv url: http://arxiv.org/abs/2505.21077v1
- Date: Tue, 27 May 2025 12:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.626868
- Title: Efficient Large Language Model Inference with Neural Block Linearization
- Title(参考訳): ニューラルブロック線形化を用いた高能率大言語モデル推論
- Authors: Mete Erdogan, Francesco Tonin, Volkan Cevher,
- Abstract要約: 本稿では,トランスフォーマーモデル推論を高速化する新しいフレームワークであるNeural Block Linearization (NBL)を紹介する。
NBLは、線形最小平均正方形誤差推定器から導かれる線形近似で自己アテンション層を置き換える。
実験では、NBLは、複数の推論ベンチマークで競合精度を維持しながら、顕著な計算スピードアップを達成する。
- 参考スコア(独自算出の注目度): 47.89931529975717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high inference demands of transformer-based Large Language Models (LLMs) pose substantial challenges in their deployment. To this end, we introduce Neural Block Linearization (NBL), a novel framework for accelerating transformer model inference by replacing self-attention layers with linear approximations derived from Linear Minimum Mean Squared Error estimators. NBL leverages Canonical Correlation Analysis to compute a theoretical upper bound on the approximation error. Then, we use this bound as a criterion for substitution, selecting the LLM layers with the lowest linearization error. NBL can be efficiently applied to pre-trained LLMs without the need for fine-tuning. In experiments, NBL achieves notable computational speed-ups while preserving competitive accuracy on multiple reasoning benchmarks. For instance, applying NBL to 12 self-attention layers in DeepSeek-R1-Distill-Llama-8B increases the inference speed by 32% with less than 1% accuracy trade-off, making it a flexible and promising solution to improve the inference efficiency of LLMs.
- Abstract(参考訳): トランスフォーマーベースのLarge Language Models(LLM)の高い推論要求は、そのデプロイメントに重大な課題をもたらす。
この目的のために、線形最小値平均正方形誤差推定器から導かれる線形近似に自己アテンション層を置き換え、トランスフォーマーモデル推論を高速化する新しいフレームワークであるNeural Block Linearization (NBL)を導入する。
NBLは正準相関解析を利用して近似誤差の理論上界を計算する。
次に、この境界を置換の基準として、最小線形化誤差のLLM層を選択する。
NBLは、微調整を必要とせずに、訓練済みのLLMに効率的に適用することができる。
実験では、NBLは、複数の推論ベンチマークで競合精度を維持しながら、顕著な計算スピードアップを達成する。
例えば、DeepSeek-R1-Distill-Llama-8Bの12個の自己アテンション層にNBLを適用すると、推論速度が32%向上し、1%未満の精度でトレードオフする。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Rational Tuning of LLM Cascades via Probabilistic Modeling [0.9208007322096532]
大規模言語モデル(LLM)の連立性能分布の確率的モデルを提案する。
グリッドサーチを用いた信頼性閾値の選択と比較して,提案手法はカスケードの長さとコストエラー曲線の所望の解像度に関して,実行時のスケーリングを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-16T07:58:33Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Hyperparameter Estimation for Sparse Bayesian Learning Models [1.0172874946490507]
Aparse Bayesian Learning (SBL) モデルは、信号処理や機械学習において、階層的な事前処理による疎結合を促進するために広く使われている。
本稿では,種々の目的関数に対するSBLモデルの改良のためのフレームワークを提案する。
信号雑音比において, 高い効率性を示す新しいアルゴリズムが導入された。
論文 参考訳(メタデータ) (2024-01-04T21:24:01Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。