論文の概要: Efficient Large Language Model Inference with Neural Block Linearization
- arxiv url: http://arxiv.org/abs/2505.21077v1
- Date: Tue, 27 May 2025 12:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.626868
- Title: Efficient Large Language Model Inference with Neural Block Linearization
- Title(参考訳): ニューラルブロック線形化を用いた高能率大言語モデル推論
- Authors: Mete Erdogan, Francesco Tonin, Volkan Cevher,
- Abstract要約: 本稿では,トランスフォーマーモデル推論を高速化する新しいフレームワークであるNeural Block Linearization (NBL)を紹介する。
NBLは、線形最小平均正方形誤差推定器から導かれる線形近似で自己アテンション層を置き換える。
実験では、NBLは、複数の推論ベンチマークで競合精度を維持しながら、顕著な計算スピードアップを達成する。
- 参考スコア(独自算出の注目度): 47.89931529975717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high inference demands of transformer-based Large Language Models (LLMs) pose substantial challenges in their deployment. To this end, we introduce Neural Block Linearization (NBL), a novel framework for accelerating transformer model inference by replacing self-attention layers with linear approximations derived from Linear Minimum Mean Squared Error estimators. NBL leverages Canonical Correlation Analysis to compute a theoretical upper bound on the approximation error. Then, we use this bound as a criterion for substitution, selecting the LLM layers with the lowest linearization error. NBL can be efficiently applied to pre-trained LLMs without the need for fine-tuning. In experiments, NBL achieves notable computational speed-ups while preserving competitive accuracy on multiple reasoning benchmarks. For instance, applying NBL to 12 self-attention layers in DeepSeek-R1-Distill-Llama-8B increases the inference speed by 32% with less than 1% accuracy trade-off, making it a flexible and promising solution to improve the inference efficiency of LLMs.
- Abstract(参考訳): トランスフォーマーベースのLarge Language Models(LLM)の高い推論要求は、そのデプロイメントに重大な課題をもたらす。
この目的のために、線形最小値平均正方形誤差推定器から導かれる線形近似に自己アテンション層を置き換え、トランスフォーマーモデル推論を高速化する新しいフレームワークであるNeural Block Linearization (NBL)を導入する。
NBLは正準相関解析を利用して近似誤差の理論上界を計算する。
次に、この境界を置換の基準として、最小線形化誤差のLLM層を選択する。
NBLは、微調整を必要とせずに、訓練済みのLLMに効率的に適用することができる。
実験では、NBLは、複数の推論ベンチマークで競合精度を維持しながら、顕著な計算スピードアップを達成する。
例えば、DeepSeek-R1-Distill-Llama-8Bの12個の自己アテンション層にNBLを適用すると、推論速度が32%向上し、1%未満の精度でトレードオフする。
関連論文リスト
- $\
abla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - NLI:Non-uniform Linear Interpolation Approximation of Nonlinear Operations for Efficient LLMs Inference [17.605039499074074]
非一様線形補間(NLI)と呼ばれるキャリブレーションのない動的プログラミング最適化フレームワークを提案する。
NLIは様々な非線形関数を効率的に近似することができ、大きな言語モデルへのシームレスな統合を可能にする。
ハードウェア実験により、NLIエンジンは計算効率を4倍以上に向上することが示された。
論文 参考訳(メタデータ) (2026-02-03T01:47:58Z) - FLRQ: Faster LLM Quantization with Flexible Low-Rank Matrix Sketching [4.01326804806241]
Rank1-Sketch-based Flexible Rank Selection (R1-FLR) と Best Low-rank Approximation under Clipping (BLC) を導入する。
R1-FLRは高速な低ランク近似のためにガウス射影を持つR1-Sketchを適用し、各層に対して外向きのランク抽出を可能にする。
BLCは、スケーリングとクリッピング戦略の下での低ランク量子化誤差の最小化を目的としている。
論文 参考訳(メタデータ) (2026-01-09T10:06:45Z) - Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-10-13T17:47:50Z) - ImCoref-CeS: An Improved Lightweight Pipeline for Coreference Resolution with LLM-based Checker-Splitter Refinement [45.01372641622595]
InmCoref-CeSは,拡張教師付きモデルとLarge Language Models(LLM)ベースの推論を統合する新しいフレームワークである。
まず、教師付きニューラルネットワークの性能境界を押し上げる改良CR法(textbfImCoref)を提案する。
マルチロールチェッカースプリッターエージェントとして機能するLCMを用いて、候補参照とコア参照結果の検証を行う。
論文 参考訳(メタデータ) (2025-10-11T14:48:08Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Rational Tuning of LLM Cascades via Probabilistic Modeling [0.9208007322096532]
大規模言語モデル(LLM)の連立性能分布の確率的モデルを提案する。
グリッドサーチを用いた信頼性閾値の選択と比較して,提案手法はカスケードの長さとコストエラー曲線の所望の解像度に関して,実行時のスケーリングを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-16T07:58:33Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - A least distance estimator for a multivariate regression model using
deep neural networks [1.8876415010297893]
(A)GDNN-LD推定器は、DNN構造の重みパラメータに(適応的な)グループラッソペナルティを適用することにより、可変選択とモデル推定を同時に行う。
そこで本研究では,最小距離損失に基づく非滑らかな目的関数の最適化を容易にする2次平滑化近似法を提案する。
論文 参考訳(メタデータ) (2024-01-06T04:36:00Z) - Hyperparameter Estimation for Sparse Bayesian Learning Models [1.0172874946490507]
Aparse Bayesian Learning (SBL) モデルは、信号処理や機械学習において、階層的な事前処理による疎結合を促進するために広く使われている。
本稿では,種々の目的関数に対するSBLモデルの改良のためのフレームワークを提案する。
信号雑音比において, 高い効率性を示す新しいアルゴリズムが導入された。
論文 参考訳(メタデータ) (2024-01-04T21:24:01Z) - SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning [28.26143547479141]
SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。
SHOTはベースラインモデルの計算複雑性をあまり増やさない。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-04T11:43:08Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。