論文の概要: FlexRound: Learnable Rounding based on Element-wise Division for Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2306.00317v2
- Date: Tue, 16 Jul 2024 09:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 00:20:24.602383
- Title: FlexRound: Learnable Rounding based on Element-wise Division for Post-Training Quantization
- Title(参考訳): FlexRound: トレーニング後の量子化のための要素分割に基づく学習可能なラウンドリング
- Authors: Jung Hyun Lee, Jeonghoon Kim, Se Jung Kwon, Dongsoo Lee,
- Abstract要約: トレーニング後の量子化(PTQ)は、リソース制限されたデバイスへのディープニューラルネットワークのデプロイで人気を集めている。
本稿では,典型的な要素分割ではなく,要素分割に基づくPTQ(emphFlexRound)の重み付け機構を提案する。
我々の研究は、画像分類と自然言語理解だけでなく、自然言語生成に関する総合的な実験を初めて行った。
- 参考スコア(独自算出の注目度): 9.554110479652147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) has been gaining popularity for the deployment of deep neural networks on resource-limited devices since unlike quantization-aware training, neither a full training dataset nor end-to-end training is required at all. As PTQ schemes based on reconstructing each layer or block output turn out to be effective to enhance quantized model performance, recent works have developed algorithms to devise and learn a new weight-rounding scheme so as to better reconstruct each layer or block output. In this work, we propose a simple yet effective new weight-rounding mechanism for PTQ, coined \emph{FlexRound}, based on element-wise division instead of typical element-wise addition such that FlexRound enables jointly learning a common quantization grid size as well as a different scale for each pre-trained weight. Thanks to the reciprocal rule of derivatives induced by element-wise division, FlexRound is inherently able to exploit pre-trained weights when updating their corresponding scales, and thus, flexibly quantize pre-trained weights depending on their magnitudes. We empirically validate the efficacy of FlexRound on a wide range of models and tasks. To the best of our knowledge, our work is the first to carry out comprehensive experiments on not only image classification and natural language understanding but also natural language generation. Moreover, we demonstrate, for the first time, that large language models can be efficiently quantized, with only a negligible impact on performance compared to half-precision baselines, achieved by reconstructing the output in a block-by-block manner. Our code is available at \url{https://github.com/onliwad101/FlexRound_LRQ}.
- Abstract(参考訳): トレーニング後の量子化(PTQ)は、量子化対応のトレーニングとは異なり、完全なトレーニングデータセットもエンドツーエンドトレーニングもまったく必要としないため、リソース制限されたデバイスへのディープニューラルネットワークのデプロイで人気が高まっている。
近年, 各層やブロック出力を再構成したPTQスキームは, 定量化モデルの性能向上に有効であることが判明し, 各層やブロック出力をより良く再構築するための新しい重み付きスキームを考案し, 学習するアルゴリズムが開発されている。
そこで本研究では,FlexRoundが共通の量子化グリッドサイズと,事前学習した各ウェイトに対する異なるスケールを共同学習できるように,従来の要素分割ではなく,要素分割をベースとしたPTQの簡易かつ効果的な新しいウェイトラウンド機構を提案する。
要素分割によって誘導される微分の相互規則により、FlexRoundは本質的に、対応するスケールを更新する際に事前トレーニングされた重みを利用することができ、したがって、その大きさに応じて柔軟に事前トレーニングされた重みを定量化することができる。
幅広いモデルやタスクにおいてFlexRoundの有効性を実証的に検証する。
我々の知識を最大限に活用するために、画像分類と自然言語理解だけでなく、自然言語生成に関する総合的な実験を初めて行った。
さらに,大規模言語モデルをブロック単位で再構築することで,半精度のベースラインと比較して,性能に無視できる影響しか持たず,効率的に定量化できることを実証した。
私たちのコードは \url{https://github.com/onliwad101/FlexRound_LRQ} で利用可能です。
関連論文リスト
- Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - Geometry-aware training of factorized layers in tensor Tucker format [6.701651480567394]
重みテンソルのタッカー分解の要因を学習するための新しい手法を提案する。
トレーニングの提案は, 元の非リファクタリング力学を局所的に近似する上で最適であることが証明された。
本稿では,アルゴリズムの理論解析を行い,収束,近似,局所降下保証を示す。
論文 参考訳(メタデータ) (2023-05-30T14:20:51Z) - When Computing Power Network Meets Distributed Machine Learning: An
Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。
私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文 参考訳(メタデータ) (2023-05-22T12:36:52Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Leveraging Angular Information Between Feature and Classifier for
Long-tailed Learning: A Prediction Reformulation Approach [90.77858044524544]
分類器の重みを再バランスすることなく、包含角度で認識確率を再構成する。
予測形式再構成の性能向上に着想を得て, この角度予測の異なる特性について検討する。
CIFAR10/100-LT と ImageNet-LT を事前学習することなく、ピアメソッド間で最高の性能を得ることができる。
論文 参考訳(メタデータ) (2022-12-03T07:52:48Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Continual Learning using a Bayesian Nonparametric Dictionary of Weight
Factors [75.58555462743585]
訓練されたニューラルネットワークは、シーケンシャルなタスク設定で破滅的な忘れを経験する傾向がある。
Indian Buffet Process (IBP) に基づく原則的非パラメトリック手法を提案する。
連続学習ベンチマークにおける本手法の有効性を実証し、トレーニングを通して重み要因の配分と再利用方法を分析する。
論文 参考訳(メタデータ) (2020-04-21T15:20:19Z) - Efficient Learning of Model Weights via Changing Features During
Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。
私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文 参考訳(メタデータ) (2020-02-21T12:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。