論文の概要: Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2310.13315v1
- Date: Fri, 20 Oct 2023 07:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:06:45.072065
- Title: Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルのゼロショットシャープネスを考慮した量子化
- Authors: Miaoxi Zhu, Qihuang Zhong, Li Shen, Liang Ding, Juhua Liu, Bo Du,
Dacheng Tao
- Abstract要約: 量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 88.80146574509195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is a promising approach for reducing memory overhead and
accelerating inference, especially in large pre-trained language model (PLM)
scenarios. While having no access to original training data due to security and
privacy concerns has emerged the demand for zero-shot quantization. Most of the
cutting-edge zero-shot quantization methods primarily 1) apply to computer
vision tasks, and 2) neglect of overfitting problem in the generative
adversarial learning process, leading to sub-optimal performance. Motivated by
this, we propose a novel zero-shot sharpness-aware quantization (ZSAQ)
framework for the zero-shot quantization of various PLMs. The key algorithm in
solving ZSAQ is the SAM-SGA optimization, which aims to improve the
quantization accuracy and model generalization via optimizing a minimax
problem. We theoretically prove the convergence rate for the minimax
optimization problem and this result can be applied to other nonconvex-PL
minimax optimization frameworks. Extensive experiments on 11 tasks demonstrate
that our method brings consistent and significant performance gains on both
discriminative and generative PLMs, i.e., up to +6.98 average score.
Furthermore, we empirically validate that our method can effectively improve
the model generalization.
- Abstract(参考訳): 量子化は、特に大規模事前学習言語モデル(plm)シナリオにおいて、メモリオーバヘッドの削減と推論の高速化に有望なアプローチである。
セキュリティとプライバシに関する懸念から、オリジナルのトレーニングデータにアクセスできないが、ゼロショット量子化の需要が浮上している。
最先端ゼロショット量子化法のほとんどが主に
1)コンピュータビジョンタスクに適用し、
2) 生成的逆学習過程における過剰フィッティング問題の無視は, 下位最適性能に繋がる。
そこで本研究では,様々なplmのゼロショット量子化のための新しいゼロショットシャープネスアウェア量子化(zsaq)フレームワークを提案する。
ZSAQの鍵となるアルゴリズムはSAM-SGA最適化であり、ミニマックス問題を最適化することで量子化精度とモデルの一般化を改善することを目的としている。
理論上、ミニマックス最適化問題の収束率を証明し、この結果は他の非凸plミニマックス最適化フレームワークに適用できる。
11のタスクに対する大規模な実験により、我々の手法は差別的PLMと生成的PLMの両方、すなわち+6.98の平均スコアに対して、一貫性と顕著なパフォーマンス向上をもたらすことを示した。
さらに,本手法がモデル一般化を効果的に改善できることを実証的に検証した。
関連論文リスト
- QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。
これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文 参考訳(メタデータ) (2023-05-05T15:33:39Z) - Using Differential Evolution to avoid local minima in Variational
Quantum Algorithms [0.0]
変分量子アルゴリズム(VQA)は、量子コンピューティングを利用する最も有望なNISQ時代のアルゴリズムの一つである。
本研究の目的は,局所的ミニマ問題や大理石高原問題の影響を回避・低減できる代替最適化手法を検討することである。
論文 参考訳(メタデータ) (2023-03-21T20:31:06Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Sharpness-Aware Minimization for Efficiently Improving Generalization [36.87818971067698]
本稿では,損失値と損失シャープネスを同時に最小化する新しい効果的な手法を提案する。
シャープネス・アウェアの最小化(SAM)は、一様損失の少ない地区にあるパラメータを求める。
SAMは様々なベンチマークデータセットのモデル一般化を改善することを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-10-03T19:02:10Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。