論文の概要: Characterizing the Efficiency vs. Accuracy Trade-off for Long-Context
NLP Models
- arxiv url: http://arxiv.org/abs/2204.07288v1
- Date: Fri, 15 Apr 2022 01:52:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 23:22:07.555175
- Title: Characterizing the Efficiency vs. Accuracy Trade-off for Long-Context
NLP Models
- Title(参考訳): 長期NLPモデルにおける効率対精度トレードオフの特徴付け
- Authors: Phyllis Ang, Bhuwan Dhingra, Lisa Wu Wills
- Abstract要約: 広範に使用されている2つのロングシーケンスモデルにおける精度と効率のトレードオフについて検討する。
その結果、LEDはビッグバードよりも低コストで常に精度が良いことが判明した。
質問への答えとして、より小さなモデルの方がより効率的で、より正確なモデルであることが分かる。
- 参考スコア(独自算出の注目度): 12.062489591946457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With many real-world applications of Natural Language Processing (NLP)
comprising of long texts, there has been a rise in NLP benchmarks that measure
the accuracy of models that can handle longer input sequences. However, these
benchmarks do not consider the trade-offs between accuracy, speed, and power
consumption as input sizes or model sizes are varied. In this work, we perform
a systematic study of this accuracy vs. efficiency trade-off on two widely used
long-sequence models - Longformer-Encoder-Decoder (LED) and Big Bird - during
fine-tuning and inference on four datasets from the SCROLLS benchmark. To study
how this trade-off differs across hyperparameter settings, we compare the
models across four sequence lengths (1024, 2048, 3072, 4096) and two model
sizes (base and large) under a fixed resource budget. We find that LED
consistently achieves better accuracy at lower energy costs than Big Bird. For
summarization, we find that increasing model size is more energy efficient than
increasing sequence length for higher accuracy. However, this comes at the cost
of a large drop in inference speed. For question answering, we find that
smaller models are both more efficient and more accurate due to the larger
training batch sizes possible under a fixed resource budget.
- Abstract(参考訳): 長いテキストからなる自然言語処理(NLP)の現実的な応用が数多くあり、長い入力シーケンスを処理できるモデルの精度を測定するNLPベンチマークが増加している。
しかし、これらのベンチマークでは入力サイズやモデルサイズが異なるため、精度、速度、消費電力のトレードオフは考慮されていない。
本研究では,SCROLLSベンチマークによる4つのデータセットの微調整と推論において,Longformer-Encoder-Decoder (LED) とBig Bird の2つの広く使用されている長周期モデルに対して,この精度と効率のトレードオフを系統的に検討する。
このトレードオフがハイパーパラメータ設定によってどのように異なるかを調べるため、固定資源予算の下で4つのシーケンス長(1024, 2048, 3072, 4096)と2つのモデルサイズ(ベースとサイズ)を比較した。
ledは、big birdよりも低いエネルギーコストで一貫して高い精度を実現しています。
要約では, モデルサイズの増加は, 精度を高めるためにシーケンス長の増加よりもエネルギー効率が高いことがわかった。
しかし、これは推論速度が大幅に低下するコストが伴う。
疑問に答えるには、固定リソース予算の下で可能なトレーニングバッチサイズが大きいため、より小さなモデルの方が効率的かつ正確であることが分かる。
関連論文リスト
- FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Astraios: Parameter-Efficient Instruction Tuning Code Large Language
Models [21.17021844323919]
Astraiosは7つのチューニングメソッドと最大16億のパラメータの4つのモデルサイズを使用して、命令チューニングされた28のOctoCoderモデルのスイートである。
その結果、FFTは全スケールで最高のダウンストリーム性能を示し、PEFT法はモデルスケールに基づいてその有効性に大きな違いがあることがわかった。
論文 参考訳(メタデータ) (2024-01-01T15:30:19Z) - Understanding the Impact of Post-Training Quantization on Large Language
Models [0.38073142980732994]
この研究は、nf4が低い温度でラマ2系列のモデルの場合、温度変化に対する弾力性を示すと同定した。
Int8量子化は推論速度が大幅に遅いのに対して、不定値のbfloat16モデルは全てのサイズのモデルで常に高速な推論速度が得られる。
論文 参考訳(メタデータ) (2023-09-11T02:58:32Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - AxFormer: Accuracy-driven Approximation of Transformers for Faster,
Smaller and more Accurate NLP Models [4.247712017691596]
AxFormerは、特定の下流タスクのために最適化されたトランスフォーマーモデルを作成するために、精度駆動の近似を適用するフレームワークである。
実験の結果,AxFormerモデルの方が最大4.5%精度が高く,2.5倍高速で3.2倍小型であることがわかった。
論文 参考訳(メタデータ) (2020-10-07T23:29:34Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。