論文の概要: Intriguing Properties of Quantization at Scale
- arxiv url: http://arxiv.org/abs/2305.19268v1
- Date: Tue, 30 May 2023 17:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 14:27:17.291964
- Title: Intriguing Properties of Quantization at Scale
- Title(参考訳): 大規模量子化の興味深い性質
- Authors: Arash Ahmadian, Saurabh Dash, Hongyu Chen, Bharat Venkitesh, Stephen
Gou, Phil Blunsom, Ahmet \"Ust\"un, Sara Hooker
- Abstract要約: 創発的性質は、より小さなモデルに存在するのではなく、より大きなモデルで観察される振る舞いを記述する用語として広く採用されている。
最近の研究は、量子化によって引き起こされるトレードオフもまた創発的な性質であり、6Bパラメーター以上のモデルの性能の急激な低下を示唆している。
この研究では、"量子化の崖は単にスケールの要因であるのでしょうか?
- 参考スコア(独自算出の注目度): 19.617861533991242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emergent properties have been widely adopted as a term to describe behavior
not present in smaller models but observed in larger models. Recent work
suggests that the trade-off incurred by quantization is also an emergent
property, with sharp drops in performance in models over 6B parameters. In this
work, we ask "are quantization cliffs in performance solely a factor of scale?"
Against a backdrop of increased research focus on why certain emergent
properties surface at scale, this work provides a useful counter-example. We
posit that it is possible to optimize for a quantization friendly training
recipe that suppresses large activation magnitude outliers. Here, we find that
outlier dimensions are not an inherent product of scale, but rather sensitive
to the optimization conditions present during pre-training. This both opens up
directions for more efficient quantization, and poses the question of whether
other emergent properties are inherent or can be altered and conditioned by
optimization and architecture design choices. We successfully quantize models
ranging in size from 410M to 52B with minimal degradation in performance.
- Abstract(参考訳): 創発的特性は、より小さなモデルには存在せず、より大きなモデルで観察される行動を記述する用語として広く採用されている。
最近の研究は、量子化によって引き起こされるトレードオフもまた創発的な性質であり、6Bパラメータ以上のモデルの性能の急激な低下を示唆している。
本研究では,「性能の定量化の崖はスケールの要因にすぎないか?
ある種の創発特性が大規模に表面化する理由に関する研究の背景から、この研究は有用な反例を提供する。
我々は,大きなアクティベーションマグニチュード異常を抑制する量子化フレンドリーなトレーニングレシピの最適化が可能であることを実証する。
ここで、アウトリアー次元はスケールの固有積ではなく、プレトレーニング中に生じる最適化条件に敏感であることが分かる。
これはどちらもより効率的な量子化のための方向を開き、他の創発的性質が固有ののか、最適化とアーキテクチャ設計の選択によって変更および条件付けできるのかという疑問を提起する。
性能を最小限に抑えながら,410Mから52Bまでの範囲のモデルを定量化した。
関連論文リスト
- Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models [10.517704202614091]
sparse Mixture-of-Experts (MoEs) は、例ごとのFLOPを比例的に増やさずにパラメータの数をスケールできる。
本研究では,不活性パラメータの比率が,事前学習および下流数ショット評価におけるモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-21T18:51:15Z) - FP=xINT:A Low-Bit Series Expansion Algorithm for Post-Training Quantization [3.560046736432574]
PTQ(Post-Training Quantization)は、事前訓練されたフル精度(FP)モデルを、トレーニングなしで量子化したバージョンに変換する。
既存の手法は、量子化ノイズによる極端に低い設定で性能と量子化効率を著しく低下させる。
この問題に対処するためのディープモデルシリーズ拡張フレームワークを導入し、キャリブレーションセットや微調整を必要とせずに、不定値モデルの迅速かつ正確な近似を可能にする。
論文 参考訳(メタデータ) (2024-12-09T08:50:28Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Quantifying the Capabilities of LLMs across Scale and Precision [12.879551933541345]
本研究では,モデルスケールと量子化がインストラクションモデルの性能に及ぼす影響について検討する。
より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、4ビット量子化においても高い精度を維持することができることを示す。
論文 参考訳(メタデータ) (2024-05-06T03:42:34Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Inverse scaling can become U-shaped [126.64521446943155]
言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスを改善するために実証的に示されている。
本稿では,これらの逆スケーリングタスクについて詳しく検討する。
Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。
論文 参考訳(メタデータ) (2022-11-03T17:26:44Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文 参考訳(メタデータ) (2020-12-22T07:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。