Fugu-MT 論文翻訳(概要): Towards Efficient Post-training Quantization of Pre-trained Language Models

論文の概要: Towards Efficient Post-training Quantization of Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2109.15082v1
Date: Thu, 30 Sep 2021 12:50:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-01 14:55:31.051826
Title: Towards Efficient Post-training Quantization of Pre-trained Language Models
Title（参考訳）: 事前学習言語モデルの学習後効率的な量子化に向けて
Authors: Haoli Bai, Lu Hou, Lifeng Shang, Xin Jiang, Irwin King, Michael R. Lyu
Abstract要約: PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。 GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
参考スコア（独自算出の注目度）: 85.68317334241287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Network quantization has gained increasing attention with the rapid growth of large pre-trained language models~(PLMs). However, most existing quantization methods for PLMs follow quantization-aware training~(QAT) that requires end-to-end training with full access to the entire dataset. Therefore, they suffer from slow training, large memory overhead, and data security issues. In this paper, we study post-training quantization~(PTQ) of PLMs, and propose module-wise quantization error minimization~(MREM), an efficient solution to mitigate these issues. By partitioning the PLM into multiple modules, we minimize the reconstruction error incurred by quantization for each module. In addition, we design a new model parallel training strategy such that each module can be trained locally on separate computing devices without waiting for preceding modules, which brings nearly the theoretical training speed-up (e.g., $4\times$ on $4$ GPUs). Experiments on GLUE and SQuAD benchmarks show that our proposed PTQ solution not only performs close to QAT, but also enjoys significant reductions in training time, memory overhead, and data consumption.
Abstract（参考訳）: ネットワーク量子化は、大規模事前学習言語モデル(PLM)の急速な成長に伴い注目されている。しかしながら、PLMの既存の量子化手法のほとんどは、データセット全体への完全なアクセスを伴うエンドツーエンドのトレーニングを必要とする量子化対応トレーニング~(QAT)に従っている。そのため、トレーニングの遅さ、大きなメモリオーバヘッド、データセキュリティの問題に苦しむ。本稿では,PLMの学習後の量子化〜(PTQ)について検討し,モジュール単位の量子化誤差最小化〜(MREM)を提案する。 PLMを複数のモジュールに分割することにより、各モジュールの量子化による再構成誤差を最小限に抑える。さらに,先行するモジュールを待たずに,各モジュールを個別のコンピュータデバイス上でローカルにトレーニングできるように,新たなモデル並列トレーニング戦略を設計した(例えば,4ドルのgpuで$4\times$)。実験の結果,提案するptqソリューションはqatに近い性能を示すだけでなく,トレーニング時間,メモリオーバーヘッド,データ消費の大幅な削減が期待できることがわかった。

関連論文リスト

Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining [0.0]
トレーニング後の量子化は、精度の低下を犠牲にして、モデルサイズを効率的に削減する。量子化学習(quantization-aware training)は、精度を向上するが、リソース集約である。本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
論文参考訳（メタデータ） (2025-04-14T19:31:21Z)
QArtSR: Quantization via Reverse-Module and Timestep-Retraining in One-Step Diffusion based Image Super-Resolution [96.98816416660534]
1段階拡散ベース画像超解像モデル(OSDSR)は、近年ますます優れた性能を示している。そこで我々は,QArtSR と呼ばれる OSDSR の逆加群による量子化と時間ステップの調整を効率的に行う方法を提案する。我々の4ビットおよび2ビットの量子化実験結果から、QArtSRは最近の先行比較法に対して優れた効果が得られることが示唆された。
論文参考訳（メタデータ） (2025-03-07T17:11:07Z)
Binary Neural Networks for Large Language Model: A Survey [6.8834621543726815]
低ビット量子化は、鍵となる手法として、モデルパラメータのビット幅を小さくすることで、メモリ使用量と計算要求を減らす。 BitNetチームは、低精度バイナリウェイトを使用して、モデルトレーニングの開始から量子化を行うという、根本的に異なるアプローチを提案した。本稿では,これらのバイナリ量子化手法について概観する。
論文参考訳（メタデータ） (2025-02-26T10:14:19Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
DataStates-LLM: Lazy Asynchronous Checkpointing for Large Language Models [3.3484462092188005]
モデルと状態シャードを構成するテンソルが、長期間にわたって不変であるという事実を生かして、遅延非同期マルチレベルアプローチを導入する。その結果、48$times$より高速なチェックポイントと2.2$times$より高速なエンドツーエンドトレーニングを実現した。
論文参考訳（メタデータ） (2024-06-15T18:30:40Z)
Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。 LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文参考訳（メタデータ） (2024-06-10T15:44:22Z)
One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments [43.107261545706415]
大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。現在の方法では、量子化損失によるパフォーマンス劣化を軽減するために、通常、長いトレーニングが必要です。我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
論文参考訳（メタデータ） (2024-05-30T16:05:15Z)
Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文参考訳（メタデータ） (2024-05-22T06:48:43Z)
LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文参考訳（メタデータ） (2023-05-29T05:22:11Z)
Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。提案するフレームワークは,合理的な性能で高い効率性を示す。
論文参考訳（メタデータ） (2023-04-20T07:21:32Z)
Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。 MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文参考訳（メタデータ） (2023-03-12T21:01:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。