論文の概要: Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers
- arxiv url: http://arxiv.org/abs/2402.08958v3
- Date: Tue, 05 Nov 2024 08:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:15.357327
- Title: Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers
- Title(参考訳): ハイパースケール変圧器の次世代後処理量子化に向けて
- Authors: Junhan Kim, Chungman Lee, Eulrang Cho, Kyungphil Park, Ho-young Kim, Joonyoung Kim, Yongkweon Jeon,
- Abstract要約: ポストトレーニング量子化(PTQ)は、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。
本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.566264033360282
- License:
- Abstract: With the increasing complexity of generative AI models, post-training quantization (PTQ) has emerged as a promising solution for deploying hyper-scale models on edge devices such as mobile and TVs. Existing PTQ schemes, however, consume considerable time and resources, which could be a bottleneck in real situations where frequent model updates and multiple hyperparameter tunings are required. As a cost-effective alternative, learning-free PTQ schemes have been proposed. However, the performance is somewhat limited because they cannot consider the inter-layer dependency within the attention module, which is a significant feature of Transformers. In this paper, we thus propose a novel PTQ algorithm that balances accuracy and efficiency. The key idea of the proposed algorithm called aespa is to perform quantization layer-wise for efficiency while targeting attention-wise reconstruction to consider the cross-layer dependency. Through extensive experiments on various language models and complexity analysis, we demonstrate that aespa is accurate and efficient in quantizing Transformer models.
- Abstract(参考訳): 生成AIモデルの複雑さの増大に伴い、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして、ポストトレーニング量子化(PTQ)が登場した。
しかし、既存のPTQスキームはかなりの時間とリソースを消費しており、頻繁なモデル更新と複数のハイパーパラメータチューニングを必要とする現実の状況ではボトルネックとなる可能性がある。
費用対効果の代替として、学習不要のPTQスキームが提案されている。
しかし、パフォーマンスは、Transformerの重要な特徴であるアテンションモジュール内の層間依存性を考慮できないため、多少制限されている。
本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
aespaと呼ばれるアルゴリズムの鍵となる考え方は、多層依存性を考慮した注意度再構成を目標とし、効率よく量子化層ワイズを実行することである。
様々な言語モデルと複雑性解析に関する広範な実験を通じて,トランスフォーマーモデルの定量化において,espaが正確かつ効率的であることが実証された。
関連論文リスト
- AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。
既存の量子化アプローチは勾配に基づく最適化に依存している。
バックプロパゲーションに頼らずに層間依存関係を考慮した新しいPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Efficient Quantization Strategies for Latent Diffusion Models [20.942161659019554]
潜時拡散モデル(LDM)は時間とともに潜時変数の動的進化を捉える。
ポストトレーニング量子化(PTQ)は、ディープラーニングモデルの操作サイズを圧縮する手法である。
本研究では, LDMを効率的に定量化する量子化戦略を提案する。
論文 参考訳(メタデータ) (2023-12-09T01:47:16Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - Performance Optimization for Variable Bitwidth Federated Learning in
Wireless Networks [103.22651843174471]
本稿では,モデル量子化による統合学習(FL)における無線通信と計算効率の向上について考察する。
提案したビット幅FL方式では,エッジデバイスは局所FLモデルパラメータの量子化バージョンを調整し,コーディネートサーバに送信し,それらを量子化されたグローバルモデルに集約し,デバイスを同期させる。
FLトレーニングプロセスはマルコフ決定プロセスとして記述でき、反復よりも行動選択を最適化するためのモデルベース強化学習(RL)手法を提案する。
論文 参考訳(メタデータ) (2022-09-21T08:52:51Z) - Parameter-Parallel Distributed Variational Quantum Algorithm [7.255056332088222]
変分量子アルゴリズム(VQA)は、ノイズの多いデバイス上での実用的な量子優位性を探究するための有望な短期的手法として登場した。
本稿では,パラメータ並列分散変動量子アルゴリズム(PPD-VQA)を提案する。
この結果から,PSD-VQAは大規模実ワードアプリケーションを扱うために複数の量子プロセッサをコーディネートする実用的なソリューションを提供する可能性が示唆された。
論文 参考訳(メタデータ) (2022-07-31T15:09:12Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。