論文の概要: Accelerating Large Language Models through Partially Linear Feed-Forward Network
- arxiv url: http://arxiv.org/abs/2501.10054v1
- Date: Fri, 17 Jan 2025 09:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 17:59:09.716753
- Title: Accelerating Large Language Models through Partially Linear Feed-Forward Network
- Title(参考訳): 部分線形フィードフォワードネットワークによる大規模言語モデルの高速化
- Authors: Gansen Hu, Zhaoguo Wang, Jinglin Wei, Wei Huang, Haibo Chen,
- Abstract要約: 大規模言語モデル(LLM)は、優れた機能を示すが、巨大なパラメータ数のため、デプロイメントの課題に直面している。
コンパイラ最適化における定数折り畳みに着想を得た新しい視点を示す。
頻繁に発生する入力範囲における線形関数を部分的に近似することにより,非線形なアクティベーションを伴うLLMの最適化を可能にするTARDISを提案する。
実験により、TARDISはフィードフォワードネットワークの80%のパラメータ削減を実現し、最先端のプルーニング手法であるWandaとRIAの精度は最大65%向上した。
- 参考スコア(独自算出の注目度): 6.916037014703829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate remarkable capabilities but face deployment challenges due to their massive parameter counts. While existing compression techniques like pruning can reduce model size, it leads to significant accuracy degradation under high compression ratios. We present a novel perspective inspired by constant folding in compiler optimization. Our approach enables parameter reduction by treating activation functions in LLMs as linear functions. However, recent LLMs use complex non-linear activations like GELU that prevent direct application of this technique. We propose TARDIS, which enables optimization of LLMs with non-linear activations by partially approximating them with linear functions in frequently occurring input ranges. For outlier inputs, TARDIS employs an online predictor to dynamically fall back to original computations. Our experiments demonstrate that TARDIS achieves 80% parameter reduction in feed-forward networks, while significantly outperforming state-of-the-art pruning methods Wanda and RIA with up to 65% higher accuracy. In practical deployments for a 7B model, TARDIS achieves 1.6x end-to-end inference speedup when integrated with the vLLM serving system, and 1.4x speedup with the widely adopted HuggingFace implementation, while incurring only a 10.9% accuracy trade-off.
- Abstract(参考訳): 大規模言語モデル(LLM)は、優れた機能を示すが、巨大なパラメータ数のため、デプロイメントの課題に直面している。
プルーニングのような既存の圧縮技術はモデルサイズを削減できるが、高い圧縮比でかなりの精度の劣化をもたらす。
コンパイラ最適化における定数折り畳みに着想を得た新しい視点を示す。
本稿では,LLMの活性化関数を線形関数として扱うことにより,パラメータ低減を実現する。
しかし、最近のLLMではGELUのような複雑な非線形アクティベーションを使用しており、この手法の直接適用を防いでいる。
頻繁に発生する入力範囲における線形関数を部分的に近似することにより,非線形なアクティベーションを伴うLLMの最適化を可能にするTARDISを提案する。
外れ値入力のために、TARDISはオンライン予測器を使用して、元の計算に動的にフォールバックする。
実験の結果、TARDISはフィードフォワードネットワークの80%のパラメータ削減を実現し、WandaとRIAの最先端プルーニング手法を最大65%精度で大幅に上回っていることがわかった。
7Bモデルの実践的な展開では、TARDISはvLLMサービスシステムと統合された場合、1.6倍のエンドツーエンド推論スピードアップ、広く採用されているHugingFaceの実装で1.4倍のスピードアップを実現し、精度は10.9%に過ぎなかった。
関連論文リスト
- R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [42.362388367152256]
大規模言語モデル(LLM)は、LoRAを使用してパラメータ効率の良いCode Llamaを微調整するために使用される。
提案手法は,演算オーバーヘッドを著しく低減しつつ,ルート平均角誤差(RMSE)の点で競争力や優位性を実現する。
論文 参考訳(メタデータ) (2025-04-08T13:15:47Z) - Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - HALO: Hadamard-Assisted Lossless Optimization for Efficient Low-Precision LLM Training and Fine-Tuning [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
我々は,アダマール回転を前方と後方の両方で組み合わせることで,低精度計算における外周を緩和する。
提案手法は,高効率カーネル実装を基盤として,PEFT法とPEFT法の両方をサポートする。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。
重要なFFN成分の主記憶容量の約50%の削減と計算精度の低下を無視できる精度で達成する。
論文 参考訳(メタデータ) (2024-12-13T02:26:54Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Characterizing the Accuracy -- Efficiency Trade-off of Low-rank Decomposition in Language Models [1.401463252785724]
低ランクの分解は、大規模にリアルタイムサービスを必要とするLLMベースのアプリケーションにとって有望な方向である。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
以上の結果から,最小精度で9%のモデルサイズ削減を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T17:40:02Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Neural Graphics Primitives-based Deformable Image Registration for
On-the-fly Motion Extraction [9.599774878892665]
放射線治療における屈折内運動は、通常、変形性画像登録(DIR)を用いてモデル化される
既存の手法は、しばしば速度と精度のバランスをとるのに苦労し、臨床シナリオにおける適用性を制限する。
本研究では、ニューラルネットワークプリミティブ(NGP)を利用して変位ベクトル場(DVF)を最適化する新しいアプローチを提案する。
本手法を4D-CT肺データセットDIR-labで検証し,1.77秒で1.15pm1.15mmの目標登録誤差(TRE)を達成した。
論文 参考訳(メタデータ) (2024-02-08T11:09:27Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。