論文の概要: Qronos: Correcting the Past by Shaping the Future... in Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2505.11695v1
- Date: Fri, 16 May 2025 21:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.787841
- Title: Qronos: Correcting the Past by Shaping the Future... in Post-Training Quantization
- Title(参考訳): Qronos: トレーニング後の量子化において、未来を形作ることによって過去を修正
- Authors: Shihao Zhang, Haoyu Zhang, Ian Colbert, Rayan Saab,
- Abstract要約: 我々は、ニューラルネットワークの重みを逐次ラウンドで更新する新しいトレーニング後の量子化アルゴリズムであるQronosを紹介した。
Qronosは、ウェイトとアクティベーションの量子化の両方によるエラーを明示的に修正するだけでなく、以前のレイヤの量子化によるエラーも修正する。
- 参考スコア(独自算出の注目度): 11.469337174377046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Qronos -- a new state-of-the-art post-training quantization algorithm that sequentially rounds and updates neural network weights. Qronos not only explicitly corrects errors due to both weight and activation quantization, but also errors resulting from quantizing previous layers. Our iterative algorithm is based on an interpretable and disciplined optimization framework that subsumes and surpasses existing data-driven approaches. At each step, Qronos alternates between error correction and diffusion via optimal update rules. Importantly, we prove that Qronos admits an efficient implementation that uses the Cholesky decomposition for solving least-squares problems. We also demonstrate that Qronos is compatible with existing transformation techniques such as Hadamard-based incoherence processing and weight-activation scaling equalization, among others. We evaluate Qronos using recent autoregressive language generation models in the Llama3 family; Qronos consistently outperforms previous state-of-the-art adaptive rounding methods when quantizing the weights, activations, and/or KV caches.
- Abstract(参考訳): 我々は、ニューラルネットワークの重みを逐次ラウンドで更新する、最先端のポストトレーニング量子化アルゴリズムであるQronosを紹介した。
Qronosは、ウェイトとアクティベーションの量子化の両方によるエラーを明示的に修正するだけでなく、以前のレイヤの量子化によるエラーも修正する。
我々の反復アルゴリズムは、既存のデータ駆動アプローチを仮定し、超越した解釈可能な、規律付き最適化フレームワークに基づいている。
各ステップで、Qronosはエラー訂正と最適な更新ルールによる拡散を交互に行う。
重要なことは、最小二乗問題の解法としてチョレスキー分解を用いる効率的な実装をクレオスが認めていることである。
また,QronosはHadamardベースの非コヒーレンス処理やウェイトアクティベーションスケーリング等化など,既存の変換技術と互換性があることを実証した。
我々は、最近のLlama3ファミリーの自己回帰言語生成モデルを用いて、Qronosを評価する。Qronosは、ウェイト、アクティベーション、KVキャッシュの定量化において、従来の最先端適応ラウンドリング手法より一貫して優れている。
関連論文リスト
- i-QLS: Quantum-supported Algorithm for Least Squares Optimization in Non-Linear Regression [4.737806718785056]
繰り返し量子支援最小二乗(i-QLS)最適化法を提案する。
従来の量子最小二乗アプローチのスケーラビリティと精度の限界を克服する。
実験では、i-QLSにより、短期量子ハードウェアが精度とスケーラビリティを改善して回帰タスクを実行できることを確認した。
論文 参考訳(メタデータ) (2025-05-05T17:02:35Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - Efficient Sparse State Preparation via Quantum Walks [7.759506535866998]
動的グラフ上の連続時間量子ウォーク(CTQW)は、最近導入された計算の普遍モデルである。
動的CTQWからゲートモデルへのマッピングをアルゴリズムの形で開発し,任意の単一エッジウォークと単一自己ループウォークを変換する。
このマッピングを用いて、動的CTQWに基づく効率的なスパース量子状態準備フレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-30T17:28:23Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。