論文の概要: Towards Superior Quantization Accuracy: A Layer-sensitive Approach
- arxiv url: http://arxiv.org/abs/2503.06518v1
- Date: Sun, 09 Mar 2025 08:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:24.463449
- Title: Towards Superior Quantization Accuracy: A Layer-sensitive Approach
- Title(参考訳): 超高次量子化精度に向けて:層感性アプローチ
- Authors: Feng Zhang, Yanbin Liu, Weihua Li, Jie Lv, Xiaodan Wang, Quan Bai,
- Abstract要約: 大きな視覚と言語モデルは、自然言語理解、問題解決、論理的推論、知識検索といったタスクにおいて、目覚ましい人間のような知性を示してきた。
これらのモデルの訓練と提供には、かなりの計算資源が必要である。
計算要求を減らすために様々なモデル圧縮技術が開発されている。
- 参考スコア(独自算出の注目度): 12.516272941445248
- License:
- Abstract: Large Vision and Language Models have exhibited remarkable human-like intelligence in tasks such as natural language comprehension, problem-solving, logical reasoning, and knowledge retrieval. However, training and serving these models require substantial computational resources, posing a significant barrier to their widespread application and further research. To mitigate this challenge, various model compression techniques have been developed to reduce computational requirements. Nevertheless, existing methods often employ uniform quantization configurations, failing to account for the varying difficulties across different layers in quantizing large neural network models. This paper tackles this issue by leveraging layer-sensitivity features, such as activation sensitivity and weight distribution Kurtosis, to identify layers that are challenging to quantize accurately and allocate additional memory budget. The proposed methods, named SensiBoost and KurtBoost, respectively, demonstrate notable improvement in quantization accuracy, achieving up to 9% lower perplexity with only a 2% increase in memory budget on LLama models compared to the baseline.
- Abstract(参考訳): 大きな視覚と言語モデルは、自然言語理解、問題解決、論理的推論、知識検索といったタスクにおいて、目覚ましい人間のような知性を示してきた。
しかし、これらのモデルの訓練と提供には相当な計算資源が必要であり、その広範な応用とさらなる研究にとって大きな障壁となる。
この課題を軽減するため、計算要求を減らすために様々なモデル圧縮技術が開発されている。
それにもかかわらず、既存の手法はしばしば均一な量子化構成を採用しており、大きなニューラルネットワークモデルの量子化において異なる層間で異なる困難を考慮できない。
本稿では、アクティベーション感度や重み分布のクルトーシスなどの層感度特性を活用して、正確な定量化が困難な層を特定し、追加のメモリ予算を割り当てることにより、この問題に対処する。
提案手法は,それぞれSensiBoostとKurtBoostと名付けられ,量子化精度が顕著に向上し,LLamaモデルのメモリ予算がベースラインに比べてわずか2%向上した。
関連論文リスト
- QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models [3.093903491123962]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。
我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。
モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
論文 参考訳(メタデータ) (2024-12-16T10:14:01Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview [4.166341398835636]
本稿では,モデルサイズ成長の必要性と影響を論じ,性能のメリットと計算課題,環境配慮について考察する。
ポストトレーニング量子化(PTQ)と量子化対応トレーニング(QAT)の両方を含む、さまざまな量子化手法を探求する。
これらの手法が、アウトレーヤや重み付け、アクティベーション量子化といった問題にどのように対処するかを検討し、最終的には、より持続可能な大規模モデルのデプロイに寄与する。
論文 参考訳(メタデータ) (2024-09-18T02:35:00Z) - Quantized Prompt for Efficient Generalization of Vision-Language Models [27.98205540768322]
CLIPのような大規模事前学習型視覚言語モデルは、様々な分野で大きな成功を収めている。
下流への適応の間、最も難しい問題は過度に適合し、破滅的な忘れ物である。
本稿では,視覚言語モデルを正規化するための量子化について検討する。
論文 参考訳(メタデータ) (2024-07-15T13:19:56Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。
量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文 参考訳(メタデータ) (2022-08-11T04:04:03Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Binary Neural Networks: A Survey [126.67799882857656]
バイナリニューラルネットワークは、リソース制限されたデバイスにディープモデルをデプロイするための有望なテクニックとして機能する。
バイナライゼーションは必然的に深刻な情報損失を引き起こし、さらに悪いことに、その不連続性はディープネットワークの最適化に困難をもたらす。
本稿では,2項化を直接実施するネイティブソリューションと,量子化誤差の最小化,ネットワーク損失関数の改善,勾配誤差の低減といった手法を用いて,これらのアルゴリズムを探索する。
論文 参考訳(メタデータ) (2020-03-31T16:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。