論文の概要: Token-Scaled Logit Distillation for Ternary Weight Generative Language
Models
- arxiv url: http://arxiv.org/abs/2308.06744v1
- Date: Sun, 13 Aug 2023 11:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 15:35:03.007791
- Title: Token-Scaled Logit Distillation for Ternary Weight Generative Language
Models
- Title(参考訳): 三元重み生成言語モデルのためのトークンスケールロジット蒸留
- Authors: Minsoo Kim, Sihwa Lee, Janghwan Lee, Sukjin Hong, Du-Seong Chang,
Wonyong Sung, Jungwook Choi
- Abstract要約: ジェネレーティブ言語モデル(GLM)は、テキスト生成、理解、推論といったタスクにおいて顕著なパフォーマンスを示している。
生成モデルに対する現在の量子化アウェアトレーニング(QAT)手法は、精度を著しく低下させる結果となった。
本研究は大規模GLMの3次量量化学習における初回評価であり, パープレキシティは1.0未満で, 推理作業における精度の低下は生じない。
- 参考スコア(独自算出の注目度): 13.088760466123365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Language Models (GLMs) have shown impressive performance in tasks
such as text generation, understanding, and reasoning. However, the large model
size poses challenges for practical deployment. To solve this problem,
Quantization-Aware Training (QAT) has become increasingly popular. However,
current QAT methods for generative models have resulted in a noticeable loss of
accuracy. To counteract this issue, we propose a novel knowledge distillation
method specifically designed for GLMs. Our method, called token-scaled logit
distillation, prevents overfitting and provides superior learning from the
teacher model and ground truth. This research marks the first evaluation of
ternary weight quantization-aware training of large-scale GLMs with less than
1.0 degradation in perplexity and no loss of accuracy in a reasoning task.
- Abstract(参考訳): ジェネレーティブ言語モデル(GLM)は、テキスト生成、理解、推論といったタスクにおいて素晴らしいパフォーマンスを示している。
しかし、大きなモデルサイズは実用的なデプロイメントに課題をもたらします。
この問題を解決するため,QAT(Quantization-Aware Training)が普及している。
しかし, 生成モデルに対する現在のQAT法では, 精度が著しく低下している。
本稿では, GLMを対象とした新しい知識蒸留法を提案する。
本手法はトークンスケールドロジット蒸留法と呼ばれ,教師モデルや基礎的真理から優れた学習を提供する。
本研究は, 大規模glmの3次重み量子化・アウェアトレーニングの最初の評価であり, パープレキシティが1.0未満であり, 推論作業において精度が低下しないことを示す。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - ArthModel: Enhance Arithmetic Skills to Large Language Model [0.0]
この作業は、さまざまな思考方法、トレーニング方法、言語モデルの使用方法を提供します。
コードとモデルはurlhttps://www.eteced.com/eteced/arithmetic_finetuning_v1でリリースされる。
論文 参考訳(メタデータ) (2023-11-30T15:06:50Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。
精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文 参考訳(メタデータ) (2023-05-24T19:45:56Z) - Toward Efficient Language Model Pretraining and Downstream Adaptation
via Self-Evolution: A Case Study on SuperGLUE [203.65227947509933]
このレポートでは、スーパーGLUEのリーダーボードにJDExplore d-teamのVega v2を提出しました。
SuperGLUEは、広く使われている汎用言語理解評価(GLUE)ベンチマークよりも難易度が高く、8つの難しい言語理解タスクを含んでいる。
論文 参考訳(メタデータ) (2022-12-04T15:36:18Z) - Towards Computationally Feasible Deep Active Learning [4.352935908127189]
アクティブラーニング(AL)は、機械学習モデルのトレーニングに必要なアノテーションの労力を減らすための重要なテクニックである。
ディープラーニングは、実際にALをデプロイする上で不可欠ないくつかの障害に対して解決策を提供するが、他にも多くのものを導入する。
提案アルゴリズムは,より小型で高速な取得モデルであるにもかかわらず,より表現力のある後継モデルを高い性能で訓練できることを示す。
論文 参考訳(メタデータ) (2022-05-07T08:47:42Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Unrolling SGD: Understanding Factors Influencing Machine Unlearning [17.6607904333012]
機械学習は、デプロイされた機械学習モデルがトレーニングデータポイントの1つを忘れるプロセスである。
まず、近似アンラーニングのアプローチとメトリクスを分類する。
検証誤差(L2差)、すなわち、ほとんど学習されていないモデルの重みと鼻再訓練されたモデルのL2差を同定する。
論文 参考訳(メタデータ) (2021-09-27T23:46:59Z) - KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization [1.9786767260073905]
BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。
言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
論文 参考訳(メタデータ) (2021-01-15T02:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。