論文の概要: Quantization Aware Training, ERNIE and Kurtosis Regularizer: a short
empirical study
- arxiv url: http://arxiv.org/abs/2106.13035v2
- Date: Mon, 28 Jun 2021 11:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 12:08:19.856380
- Title: Quantization Aware Training, ERNIE and Kurtosis Regularizer: a short
empirical study
- Title(参考訳): 量子化アウェアトレーニング, ERNIE および Kurtosis Regularizer の短期的実証研究
- Authors: Andrea Zanetti
- Abstract要約: ErnieやBertのような事前訓練された言語モデルは、現在多くのアプリケーションで使われている。
これらのモデルには、大量のデータに対して、教師なし/自己教師なしのモダリティで通常得られる事前訓練された重みのセットが付属する。
推論設定のこれらの追加要件を満たすための主な手段は、低い精度の計算を使用することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models like Ernie or Bert are currently used in many
applications. These models come with a set of pre-trained weights typically
obtained in unsupervised/self-supervised modality on a huge amount of data.
After that, they are fine-tuned on a specific task. Applications then use these
models for inference, and often some additional constraints apply, like low
power-budget or low latency between input and output. The main avenue to meet
these additional requirements for the inference settings, is to use low
precision computation (e.g. INT8 rather than FP32), but this comes with a cost
of deteriorating the functional performance (e.g. accuracy) of the model. Some
approaches have been developed to tackle the problem and go beyond the
limitations of the PTO (Post-Training Quantization), more specifically the QAT
(Quantization Aware Training, see [4]) is a procedure that interferes with the
training process in order to make it affected (or simply disturbed) by the
quantization phase during the training itself. Besides QAT, recently
Intel-Habana Labs have proposed an additional and more direct way to make the
training results more robust to subsequent quantization which uses a
regularizer, therefore changing the loss function that drives the training
procedure. But their proposal does not work out-of-the-box for pre-trained
models like Ernie, for example. In this short paper we show why this is not
happening (for the Ernie case) and we propose a very basic way to deal with it,
sharing as well some initial results (increase in final INT8 accuracy) that
might be of interest to practitioners willing to use Ernie in their
applications, in low precision regime.
- Abstract(参考訳): ErnieやBertのような事前訓練された言語モデルは、現在多くのアプリケーションで使われている。
これらのモデルは、大量のデータに対して教師なし/自己教師なしのモダリティで通常得られる、事前訓練された重みを伴っている。
その後、特定のタスクで微調整される。
アプリケーションはこれらのモデルを推論に使用し、低電力予算や入力と出力の間の低レイテンシなど、追加の制約が適用されることが多い。
これらの追加要件を推論設定で満たす主な方法は、精度の低い計算(例えば)を使用することである。
INT8 は FP32 ではなく FP32 である)が、これは機能性能を劣化させるコストが伴う(例えば、FP32)。
精度)のモデルです
この問題に対処し、PTO(ポストトライニング量子化)の限界を超えていくためのいくつかのアプローチが開発されており、より具体的には、QAT(Quantization Aware Training、[4])は、トレーニング自体の量子化フェーズの影響を受け(あるいは単に乱される)ようトレーニングプロセスに干渉する手順である。
qatに加えて、最近intel-habana labsは、正規化器を使用するその後の量子化に対して、トレーニング結果をより堅牢にするための、より直接的な方法を提案している。
しかし彼らの提案は、例えばErnieのような事前訓練されたモデルではうまく機能しない。
この短い論文では、なぜこれが起こらないのか(Ernieの場合)を示し、それを扱うための非常に基本的な方法を提案します。
関連論文リスト
- Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Maestro: Uncovering Low-Rank Structures via Trainable Decomposition [15.254107731735553]
近年、ディープニューラルネットワーク(DNN)はAIのブレークスルーの大きな要因となっている。
より正確で安全になるにつれて、ますます大きなものになってきています。
つまり、トレーニングはますますコストと時間がかかります。
トレーニング可能な低ランク層のためのフレームワークであるMaestroを提案する。
論文 参考訳(メタデータ) (2023-08-28T23:08:15Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Batchless Normalization: How to Normalize Activations Across Instances with Minimal Memory Requirements [0.0]
ニューラルネットワークのトレーニングにおいて、バッチ正規化には多くのメリットがある。
本稿では,これらの問題に対処するための単純かつ簡単な方法を示す。
その他のメリットとして、より大きなモデルをトレーニングするためのハードウェア要件を低くすることで、AI研究の民主化に寄与することが期待できる。
論文 参考訳(メタデータ) (2022-12-30T14:15:54Z) - Embedding Recycling for Language Models [38.11465250435789]
我々は, 埋込みリサイクル(ER)によるそのような環境下での計算コストの削減について検討する。
我々は、事前訓練されたモデルから中間層の出力をキャッシュし、残りのレイヤを微調整して新しいタスクを行う方法を提案する。
本研究では,本手法が学習中の100%の高速化,55~86%の推論速度向上を実現し,学術領域におけるテキスト分類とエンティティ認識タスクの精度への影響を無視できることを示した。
論文 参考訳(メタデータ) (2022-07-11T16:36:14Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。