Fugu-MT 論文翻訳(概要): Model-Preserving Adaptive Rounding

論文の概要: Model-Preserving Adaptive Rounding

arxiv url: http://arxiv.org/abs/2505.22988v1
Date: Thu, 29 May 2025 01:53:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.614733
Title: Model-Preserving Adaptive Rounding
Title（参考訳）: モデル保存型適応ラウンドリング
Authors: Albert Tseng, Zhaofeng Sun, Christopher De Sa,
Abstract要約: その他の量子化アルゴリズム(英: Another Quantization Algorithm、YAQA)は、Kronecker-factored approximations of each linear layer's Hessian を用いた適応型ラウンドリングアルゴリズムである。これにより、KLのオリジナルモデルへの分岐を$approx 30%$削減し、下流タスクでのアートパフォーマンスの状態を達成できる。
参考スコア（独自算出の注目度）: 32.52857495678025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The main goal of post-training quantization (PTQ) is to produced a compressed model whose output distribution is as close to the original model's as possible. To do this tractably, almost all LLM PTQ algorithms quantize linear layers by independently minimizing the immediate activation error. However, this localized objective ignores the effect of subsequent layers, so reducing it does not necessarily give a closer model. In this work, we introduce Yet Another Quantization Algorithm (YAQA), an adaptive rounding algorithm that uses Kronecker-factored approximations of each linear layer's Hessian with respect to the \textit{full model} KL divergence. YAQA consists of two components: Kronecker-factored sketches of the full layerwise Hessian that can be tractably computed for hundred-billion parameter LLMs, and a quantizer-independent rounding algorithm that uses these sketches and comes with theoretical guarantees. Across a wide range of models and quantizers, YAQA empirically reduces the KL divergence to the original model by $\approx 30\%$ while achieving state of the art performance on downstream tasks.
Abstract（参考訳）: 後学習量子化(PTQ)の主な目標は、出力分布が元のモデルにできるだけ近い圧縮モデルを作成することである。これを実現するために、ほぼ全てのLLM PTQアルゴリズムは、即時アクティベーションエラーを独立に最小化し、線形層を定量化する。しかし、このローカライズされた目的は、後続のレイヤの影響を無視するので、それを減らすことは必ずしもより密接なモデルを与えるとは限らない。本研究では,各線形層ヘッセンのKronecker-factored approximationを用いた適応型ラウンドリングアルゴリズムであるHat Another Quantization Algorithm (YAQA)を紹介する。 YAQAは、100億のパラメータ LLM に対してトラクタブルに計算できる全層ヘッセンのクロネッカー分解スケッチ(Kronecker-factored sketches of the full layerwise Hessian)と、これらのスケッチを使用して理論的に保証される量子化器非依存のラウンドリングアルゴリズム(Quantizer-independent rounding algorithm)の2つのコンポーネントで構成されている。 YAQAは、幅広いモデルと量子化器にわたって、KLのオリジナルモデルへの分岐を、ダウンストリームタスクにおける最先端のパフォーマンスを達成しながら、$\approx 30\%$で実証的に削減する。

関連論文リスト

Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文参考訳（メタデータ） (2025-05-08T00:08:31Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4376560669160394]
Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。 VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文参考訳（メタデータ） (2024-08-13T00:34:33Z)
E$^2$M: Double Bounded $α$-Divergence Optimization for Tensor-based Discrete Density Estimation [3.9633191508712398]
本稿では、E$2Mアルゴリズムと呼ばれる予測最大化(EM)アルゴリズムの一般化を提案する。 Kullback-Leibler (KL) の発散に基づく代理対象の最小化に最適化を緩和することでこの問題を回避する。このアプローチは、CP、Tucker、Trainフォーマットなど、さまざまな低ランク構造に対してフレキシブルなモデリングを提供します。
論文参考訳（メタデータ） (2024-05-28T14:28:28Z)
QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文参考訳（メタデータ） (2023-09-05T01:39:09Z)
Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。 LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2022-09-26T22:22:30Z)
A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。 DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文参考訳（メタデータ） (2022-03-21T14:53:57Z)
Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文参考訳（メタデータ） (2021-09-10T07:01:15Z)
Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文参考訳（メタデータ） (2020-05-26T17:53:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。