Fugu-MT 論文翻訳(概要): FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference

論文の概要: FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference

arxiv url: http://arxiv.org/abs/2401.04044v1
Date: Mon, 8 Jan 2024 17:29:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 14:48:11.884542
Title: FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference
Title（参考訳）: FFSplit: 言語モデル推論における精度効率トレードオフを最適化するためのフィードフォワードネットワーク
Authors: Zirui Liu, Qingquan Song, Qiang Charles Xiao, Sathiya Keerthi Selvaraj, Rahul Mazumder, Aman Gupta, and Xia Hu
Abstract要約: 本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
参考スコア（独自算出の注目度）: 57.119047493787185
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The large number of parameters in Pretrained Language Models enhance their performance, but also make them resource-intensive, making it challenging to deploy them on commodity hardware like a single GPU. Due to the memory and power limitations of these devices, model compression techniques are often used to decrease both the model's size and its inference latency. This usually results in a trade-off between model accuracy and efficiency. Therefore, optimizing this balance is essential for effectively deploying LLMs on commodity hardware. A significant portion of the efficiency challenge is the Feed-forward network (FFN) component, which accounts for roughly $\frac{2}{3}$ total parameters and inference latency. In this paper, we first observe that only a few neurons of FFN module have large output norm for any input tokens, a.k.a. heavy hitters, while the others are sparsely triggered by different tokens. Based on this observation, we explicitly split the FFN into two parts according to the heavy hitters. We improve the efficiency-accuracy trade-off of existing compression methods by allocating more resource to FFN parts with heavy hitters. In practice, our method can reduce model size by 43.1\% and bring $1.25\sim1.56\times$ wall clock time speedup on different hardware with negligible accuracy drop.
Abstract（参考訳）: Pretrained Language Modelsの多数のパラメータは、パフォーマンスを向上させると同時に、リソース集約化も実現しているため、単一のGPUのようなコモディティハードウェアへのデプロイが困難になる。これらのデバイスのメモリと電力の制限のため、モデル圧縮技術はモデルのサイズと推論遅延の両方を減らすためにしばしば使用される。これは通常、モデルの精度と効率のトレードオフをもたらす。したがって、このバランスを最適化することは、LLMをコモディティハードウェアに効果的に展開するのに不可欠である。効率上の課題のかなりの部分はFeed-forward Network (FFN) コンポーネントであり、これはおよそ$\frac{2}{3}$ のパラメータと推論遅延を考慮に入れている。本稿では、FFNモジュールの少数のニューロンが入力トークン、すなわち重打手に対して大きな出力ノルムを持つのに対し、他のニューロンは異なるトークンによってわずかにトリガーされるのを観察する。この観測に基づいて、重打者に応じてFFNを2つの部分に明確に分割した。我々は,より多くの資源を重くFFN部品に割り当てることで,既存の圧縮手法の効率・精度トレードオフを改善する。実際、本手法はモデルサイズを43.1\%削減でき、異なるハードウェア上で1.25\sim1.56\times$ wall clock time speedupをもたらす。

関連論文リスト

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
decoupleQ: Towards 2-bit Post-Training Uniform Quantization via decoupling Parameters into Integer and Floating Points [10.238677144792279]
deoupleQは従来の量子化パラダイムを捨て、モデルパラメータを整数と浮動小数点に分解する。 ByteDanceの大規模音声モデルの2ビット量子化では,fp16/bf16付近のオンライン精度が良好であった。
論文参考訳（メタデータ） (2024-04-19T10:02:53Z)
LookupFFN: Making Transformers Compute-lite for CPU inference [23.61144705380663]
GPUクラスタは現在、大規模なディープニューラルネットワーク(DNN)モデルをトレーニングするための事実上の選択肢です。ワークフローの容易さ、セキュリティ、コストなど、いくつかの理由から、CPUが業界の多くの分野において、定期的な使用における推論に有効かどうかの調査が進められている。本稿では,GEMMをベースとしたFeed Forward Networks (FFNs) という,現代的なアーキテクチャにおけるワークホースであるモジュールについて検討し,計算的(FLOP-)な表現の程度を評価する。
論文参考訳（メタデータ） (2024-03-12T00:26:16Z)
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文参考訳（メタデータ） (2024-02-02T21:25:46Z)
SPT: Fine-Tuning Transformer-based Language Models Efficiently with Sparsification [14.559316921646356]
下流タスクのための微調整トランスフォーマーベースのモデルには、長い実行時間と高いメモリ消費がある。本稿では,スペーサ性を導入し,トランスフォーマーベースモデルを効率的に微調整するSPTシステムを提案する。 SPTは、最適化されたベースラインを一貫して上回り、ピークメモリ消費を最大50%削減し、微調整を最大2.2倍高速化する。
論文参考訳（メタデータ） (2023-12-16T07:44:52Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。 We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文参考訳（メタデータ） (2022-07-11T17:15:57Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。