論文の概要: Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs
- arxiv url: http://arxiv.org/abs/2305.02440v1
- Date: Wed, 3 May 2023 21:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 17:46:28.842644
- Title: Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs
- Title(参考訳): 自己回帰トランスフォーマーapiのための推定効率指標の安価評価
- Authors: Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani,
Tony Lee, Percy Liang
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
- 参考スコア(独自算出の注目度): 66.30706841821123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) power many state-of-the-art systems in natural
language processing. However, these models are extremely computationally
expensive, even at inference time, raising the natural question: when is the
extra cost of deploying a larger model worth the anticipated boost in
capabilities? Better understanding this tradeoff fundamentally could benefit
from an inference efficiency metric that is both (i) easily comparable across
models from different providers, and (ii) representative of the true cost of
running queries in an isolated performance environment. Unfortunately, access
to LLMs today is largely restricted to black-box text generation APIs and raw
runtimes measured through this interface do not satisfy these desiderata: model
providers can apply various software and hardware optimizations orthogonal to
the model, and models served on shared infrastructure are susceptible to
performance contention. To circumvent these problems, we propose a new metric
for comparing inference efficiency across models. This metric puts models on
equal footing as though they were served (i) on uniform hardware and software,
and (ii) without performance contention. We call this metric the
\emph{idealized runtime}, and we propose a methodology to efficiently estimate
this metric for autoregressive Transformer models. We also propose cost-aware
variants that incorporate the number of accelerators needed to serve the model.
Using these metrics, we compare ten state-of-the-art LLMs to provide the first
analysis of inference efficiency-capability tradeoffs; we make several
observations from this analysis, including the fact that the superior inference
runtime performance of certain APIs is often a byproduct of optimizations
within the API rather than the underlying model. Our methodology also
facilitates the efficient comparison of different software and hardware stacks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
しかし、これらのモデルは、推測時でさえ非常に計算コストが高く、自然な疑問を提起している。
このトレードオフを理解すれば、どちらも推論効率の指標の恩恵を受けることができる。
(i)異なる提供者のモデルと容易に比較でき、
(ii)独立したパフォーマンス環境でクエリを実行する真のコストの代表。
モデルプロバイダは、モデルに直交する様々なソフトウェアやハードウェアの最適化を適用でき、共有インフラストラクチャで提供されるモデルは、パフォーマンスの競合に影響を受けやすい。
これらの問題を回避すべく,モデル間の推論効率を比較するための新しい指標を提案する。
このメートル法では、モデルが提供されたかのように均等な足元に置かれる
(i)一様ハードウェア及びソフトウェアについて、及び
(ii) パフォーマンスの競合がない。
我々は、このメトリックを \emph{idealized runtime} と呼び、自己回帰トランスフォーマーモデルに対して、このメトリックを効率的に推定する手法を提案する。
また,モデル提供に必要なアクセラレータの数を組み込んだコスト対応型を提案する。
これらのメトリクスを用いて、10の最先端のLCMを比較して、推論効率-能力トレードオフの最初の分析を行う。この分析から、特定のAPIの推論ランタイム性能が基礎となるモデルよりもAPI内の最適化の副産物であることが多いという事実を含む、いくつかの観察を行う。
本手法は,ソフトウェアスタックとハードウェアスタックの効率的な比較を容易にする。
関連論文リスト
- AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language
Model Outputs [20.772266479533776]
AXOLOTLはタスクやモデル間で不可知的に動作する新しい後処理フレームワークである。
バイアスを識別し、解像度を提案し、モデルにアウトプットを自己バイアスさせる。
このアプローチは計算コストを最小化し、モデル性能を保存する。
論文 参考訳(メタデータ) (2024-03-01T00:02:37Z) - Leveraging Reinforcement Learning and Large Language Models for Code
Optimization [14.602997316032706]
本稿では,コード最適化の複雑さを低減するための新しいフレームワークを提案する。
提案するフレームワークは,大規模言語モデル(LLM)と強化学習(RL)に基づく。
我々は,新しい強化学習アルゴリズムであるCodeT5言語モデルとRRHFを用いて,PIEデータセット上でいくつかの実験を行った。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。
本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T11:42:05Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - HULK: An Energy Efficiency Benchmark Platform for Responsible Natural
Language Processing [76.38975568873765]
本稿では,自然言語処理のためのマルチタスクエネルギー効率ベンチマークプラットフォームであるHULKを紹介する。
我々は、事前訓練されたモデルのエネルギー効率を時間とコストの観点から比較する。
論文 参考訳(メタデータ) (2020-02-14T01:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。