論文の概要: Accelerating Large Language Models through Partially Linear Feed-Forward Network
- arxiv url: http://arxiv.org/abs/2501.10054v1
- Date: Fri, 17 Jan 2025 09:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:10.235341
- Title: Accelerating Large Language Models through Partially Linear Feed-Forward Network
- Title(参考訳): 部分線形フィードフォワードネットワークによる大規模言語モデルの高速化
- Authors: Gansen Hu, Zhaoguo Wang, Jinglin Wei, Wei Huang, Haibo Chen,
- Abstract要約: 大規模言語モデル(LLM)は、優れた機能を示すが、巨大なパラメータ数のため、デプロイメントの課題に直面している。
コンパイラ最適化における定数折り畳みに着想を得た新しい視点を示す。
頻繁に発生する入力範囲における線形関数を部分的に近似することにより,非線形なアクティベーションを伴うLLMの最適化を可能にするTARDISを提案する。
実験により、TARDISはフィードフォワードネットワークの80%のパラメータ削減を実現し、最先端のプルーニング手法であるWandaとRIAの精度は最大65%向上した。
- 参考スコア(独自算出の注目度): 6.916037014703829
- License:
- Abstract: Large language models (LLMs) demonstrate remarkable capabilities but face deployment challenges due to their massive parameter counts. While existing compression techniques like pruning can reduce model size, it leads to significant accuracy degradation under high compression ratios. We present a novel perspective inspired by constant folding in compiler optimization. Our approach enables parameter reduction by treating activation functions in LLMs as linear functions. However, recent LLMs use complex non-linear activations like GELU that prevent direct application of this technique. We propose TARDIS, which enables optimization of LLMs with non-linear activations by partially approximating them with linear functions in frequently occurring input ranges. For outlier inputs, TARDIS employs an online predictor to dynamically fall back to original computations. Our experiments demonstrate that TARDIS achieves 80% parameter reduction in feed-forward networks, while significantly outperforming state-of-the-art pruning methods Wanda and RIA with up to 65% higher accuracy. In practical deployments for a 7B model, TARDIS achieves 1.6x end-to-end inference speedup when integrated with the vLLM serving system, and 1.4x speedup with the widely adopted HuggingFace implementation, while incurring only a 10.9% accuracy trade-off.
- Abstract(参考訳): 大規模言語モデル(LLM)は、優れた機能を示すが、巨大なパラメータ数のため、デプロイメントの課題に直面している。
プルーニングのような既存の圧縮技術はモデルサイズを削減できるが、高い圧縮比でかなりの精度の劣化をもたらす。
コンパイラ最適化における定数折り畳みに着想を得た新しい視点を示す。
本稿では,LLMの活性化関数を線形関数として扱うことにより,パラメータ低減を実現する。
しかし、最近のLLMではGELUのような複雑な非線形アクティベーションを使用しており、この手法の直接適用を防いでいる。
頻繁に発生する入力範囲における線形関数を部分的に近似することにより,非線形なアクティベーションを伴うLLMの最適化を可能にするTARDISを提案する。
外れ値入力のために、TARDISはオンライン予測器を使用して、元の計算に動的にフォールバックする。
実験の結果、TARDISはフィードフォワードネットワークの80%のパラメータ削減を実現し、WandaとRIAの最先端プルーニング手法を最大65%精度で大幅に上回っていることがわかった。
7Bモデルの実践的な展開では、TARDISはvLLMサービスシステムと統合された場合、1.6倍のエンドツーエンド推論スピードアップ、広く採用されているHugingFaceの実装で1.4倍のスピードアップを実現し、精度は10.9%に過ぎなかった。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。
これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。
本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - SEDMamba: Enhancing Selective State Space Modelling with Bottleneck Mechanism and Fine-to-Coarse Temporal Fusion for Efficient Error Detection in Robot-Assisted Surgery [7.863539113283565]
選択的状態空間モデル(SSM)を外科的誤り検出に組み込んだSEDMambaという新しい階層モデルを提案する。
SEDMambaは、長期ビデオにおける外科的エラーの検出と時間的局所化のために、ボトルネック機構と微細から粗い時間的融合(FCTF)を備えた選択的SSMを強化する。
我々の研究は、実際の手術症例におけるエラー検出を支援するために、第一種、フレームレベル、生存中の外科的エラーデータセットにも貢献する。
論文 参考訳(メタデータ) (2024-06-22T19:20:35Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Neural Graphics Primitives-based Deformable Image Registration for
On-the-fly Motion Extraction [9.599774878892665]
放射線治療における屈折内運動は、通常、変形性画像登録(DIR)を用いてモデル化される
既存の手法は、しばしば速度と精度のバランスをとるのに苦労し、臨床シナリオにおける適用性を制限する。
本研究では、ニューラルネットワークプリミティブ(NGP)を利用して変位ベクトル場(DVF)を最適化する新しいアプローチを提案する。
本手法を4D-CT肺データセットDIR-labで検証し,1.77秒で1.15pm1.15mmの目標登録誤差(TRE)を達成した。
論文 参考訳(メタデータ) (2024-02-08T11:09:27Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。