Fugu-MT 論文翻訳(概要): Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers

論文の概要: Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers

arxiv url: http://arxiv.org/abs/2402.08958v2
Date: Mon, 21 Oct 2024 11:49:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.770966
Title: Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers
Title（参考訳）: ハイパースケール変圧器の次世代後処理量子化に向けて
Authors: Junhan Kim, Chungman Lee, Eulrang Cho, Kyungphil Park, Ho-young Kim, Joonyoung Kim, Yongkweon Jeon,
Abstract要約: ポストトレーニング量子化(PTQ)は、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 10.566264033360282
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the increasing complexity of generative AI models, post-training quantization (PTQ) has emerged as a promising solution for deploying hyper-scale models on edge devices such as mobile and TVs. Existing PTQ schemes, however, consume considerable time and resources, which could be a bottleneck in real situations where frequent model updates and multiple hyperparameter tunings are required. As a cost-effective alternative, learning-free PTQ schemes have been proposed. However, the performance is somewhat limited because they cannot consider the inter-layer dependency within the attention module, which is a significant feature of Transformers. In this paper, we thus propose a novel PTQ algorithm that balances accuracy and efficiency. The key idea of the proposed algorithm called aespa is to perform quantization layer-wise for efficiency while targeting attention-wise reconstruction to consider the cross-layer dependency. Through extensive experiments on various language models and complexity analysis, we demonstrate that aespa is accurate and efficient in quantizing Transformer models.
Abstract（参考訳）: 生成AIモデルの複雑さの増大に伴い、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして、ポストトレーニング量子化(PTQ)が登場した。しかし、既存のPTQスキームはかなりの時間とリソースを消費しており、頻繁なモデル更新と複数のハイパーパラメータチューニングを必要とする現実の状況ではボトルネックとなる可能性がある。費用対効果の代替として、学習不要のPTQスキームが提案されている。しかし、パフォーマンスは、Transformerの重要な特徴であるアテンションモジュール内の層間依存性を考慮できないため、多少制限されている。本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。 aespaと呼ばれるアルゴリズムの鍵となる考え方は、多層依存性を考慮した注意度再構成を目標とし、効率よく量子化層ワイズを実行することである。様々な言語モデルと複雑性解析に関する広範な実験を通じて,トランスフォーマーモデルの定量化において,espaが正確かつ効率的であることが実証された。

関連論文リスト

Quantization-Aware Collaborative Inference for Large Embodied AI Models [67.66340659245186]
大規模人工知能モデル(LAIM)は、AIアプリケーションを具現化するためのコアインテリジェンスエンジンとしてますます見なされている。この問題に対処するために、具体化されたAIシステムに対する量子化対応協調推論(コ推論)について検討する。
論文参考訳（メタデータ） (2026-02-13T16:08:19Z)
LSGQuant: Layer-Sensitivity Guided Quantization for One-Step Diffusion Real-World Video Super-Resolution [52.627063566555194]
本稿では,一段階拡散に基づく実世界VSRのための層感度誘導量子化手法LSGQuantを紹介する。本手法は,ビデオトークンのアクティベーションに適合する動的レンジ適応量子化器 (DRAQ) を備える。提案手法は,完全精度のオリジンモデルに対してほぼ性能が良く,既存の量子化手法をはるかに上回っている。
論文参考訳（メタデータ） (2026-02-03T06:53:19Z)
QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models [12.716956318428652]
SegQuantは、相互モデルの汎用性を高めるために相補的なテクニックを適応的に組み合わせた、統一的な量子化フレームワークである。 SegQuantはTransformerベースの拡散モデルを越えて広く適用でき、強力なパフォーマンスを実現し、メインストリームのデプロイメントツールとのシームレスな互換性を確保している。
論文参考訳（メタデータ） (2025-07-20T04:00:53Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers [3.389132862174821]
モデルの量子化は、より低い精度で重みとアクティベーション値を表す。時間群量子化(TGQ)は、アクティベーションの時間的変動に起因する量子化誤差を低減するために提案される。提案アルゴリズムは,W8A8でFIDが0.29増加し,元の完全精度モデルに匹敵する性能を実現する。
論文参考訳（メタデータ） (2025-02-06T13:14:52Z)
AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文参考訳（メタデータ） (2024-07-17T18:38:48Z)
Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。既存の量子化アプローチは勾配に基づく最適化に依存している。バックプロパゲーションに頼らずに層間依存関係を考慮した新しいPTQアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-19T11:53:21Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Efficient Quantization Strategies for Latent Diffusion Models [20.942161659019554]
潜時拡散モデル(LDM)は時間とともに潜時変数の動的進化を捉える。ポストトレーニング量子化(PTQ)は、ディープラーニングモデルの操作サイズを圧縮する手法である。本研究では, LDMを効率的に定量化する量子化戦略を提案する。
論文参考訳（メタデータ） (2023-12-09T01:47:16Z)
Towards Long-Term Time-Series Forecasting: Feature, Pattern, and Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。 LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文参考訳（メタデータ） (2023-01-05T13:59:29Z)
RepQ-ViT: Scale Reparameterization for Post-Training Quantization of Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。 RepQ-ViTは量子化と推論プロセスを分離する。既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文参考訳（メタデータ） (2022-12-16T02:52:37Z)
Performance Optimization for Variable Bitwidth Federated Learning in Wireless Networks [103.22651843174471]
本稿では,モデル量子化による統合学習(FL)における無線通信と計算効率の向上について考察する。提案したビット幅FL方式では,エッジデバイスは局所FLモデルパラメータの量子化バージョンを調整し,コーディネートサーバに送信し,それらを量子化されたグローバルモデルに集約し,デバイスを同期させる。 FLトレーニングプロセスはマルコフ決定プロセスとして記述でき、反復よりも行動選択を最適化するためのモデルベース強化学習(RL)手法を提案する。
論文参考訳（メタデータ） (2022-09-21T08:52:51Z)
Parameter-Parallel Distributed Variational Quantum Algorithm [7.255056332088222]
変分量子アルゴリズム(VQA)は、ノイズの多いデバイス上での実用的な量子優位性を探究するための有望な短期的手法として登場した。本稿では,パラメータ並列分散変動量子アルゴリズム(PPD-VQA)を提案する。この結果から,PSD-VQAは大規模実ワードアプリケーションを扱うために複数の量子プロセッサをコーディネートする実用的なソリューションを提供する可能性が示唆された。
論文参考訳（メタデータ） (2022-07-31T15:09:12Z)
PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文参考訳（メタデータ） (2021-09-15T01:10:30Z)
Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文参考訳（メタデータ） (2020-10-08T15:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。