論文の概要: Every Bit Counts: A Theoretical Study of Precision-Expressivity Tradeoffs in Quantized Transformers
- arxiv url: http://arxiv.org/abs/2602.02707v1
- Date: Mon, 02 Feb 2026 19:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.026822
- Title: Every Bit Counts: A Theoretical Study of Precision-Expressivity Tradeoffs in Quantized Transformers
- Title(参考訳): ビット数:量子変換器における精度・圧縮性トレードオフの理論的研究
- Authors: Sayak Chakrabarti, Toniann Pitassi, Josh Alman,
- Abstract要約: 各 p に対して等式関数に着想を得た関数を示し、一層ソフトマックス変換器が p ビットの精度で計算できるが p-1 ビットの精度では計算できないことを示す。
この結果は、量子化を用いた場合、広く観察される表現力の喪失現象を具体的に説明する。
- 参考スコア(独自算出の注目度): 16.719964872886315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization reduces the numerical precision of Transformer computations and is widely used to accelerate inference, yet its effect on expressivity remains poorly characterized. We demonstrate a fine-grained theoretical tradeoff between expressivity and precision: For every p we exhibit a function Γ, inspired by the equality function, and prove that a one-layer softmax Transformer can compute Γ, with p bits of precision, but not with p-1 bits of precision. This result concretely explains the widely observed phenomenon of empirical loss of expressivity when quantization is used. Practically, it suggests that tasks requiring equality-like comparisons (exact match, membership, etc.) are especially sensitive to quantization. Dropping even one bit can cross a threshold where the model cannot represent the needed comparison reliably. Thus, it paves the way for developing heuristics that will help practitioners choose how much quantization is possible: the precision should be chosen as a function of the length of equality to be checked for the specific task. Our proofs combine explicit finite-precision Transformer constructions with communication-complexity lower bounds, yielding a tight "one-bit" threshold.
- Abstract(参考訳): 量子化はトランスフォーマー計算の数値精度を低下させ、推論を加速するために広く用いられているが、その表現性への影響は未定である。
各 p に対して、等式関数にインスパイアされた関数 > を示し、一層ソフトマックス変換器が p ビットの精度で、p-1 ビットの精度で計算できることを証明する。
この結果は、量子化を用いた場合、広く観察される表現力の喪失現象を具体的に説明する。
実際には、等式的な比較を必要とするタスク(実際のマッチング、メンバーシップなど)は、特に量子化に敏感であることが示唆されている。
1ビットのドロップでも、モデルが必要な比較を確実に表現できないしきい値を越えることができる。
このようにして、実践者がどれだけ量子化が可能かを選択するのに役立つヒューリスティックスを開発する方法が舗装され、その精度は、特定のタスクに対してチェックすべき等式の長さの関数として選択されるべきである。
我々の証明は、明示的な有限精度変換器の構成と通信複雑度の下界を結合し、厳密な「1ビット」しきい値が得られる。
関連論文リスト
- Rate-Distortion Optimization for Transformer Inference [1.5378391391800512]
トランスフォーマーは多くのタスクにおいて優れたパフォーマンスを達成するが、推論中に大量の計算とメモリ要求を課す。
本稿では, 圧縮の損失を抑えるために, 圧縮の速度歪みに基づく基本的フレームワークを導入し, 圧縮の精度とトレードオフを明示するコンパクトエンコーディングを学習する。
論文 参考訳(メタデータ) (2026-01-29T17:12:46Z) - From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers [67.02076505996284]
本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。
その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
論文 参考訳(メタデータ) (2025-12-21T08:10:26Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Quantum Sparse Coding [5.130440339897477]
我々はスパース符号化のための量子インスピレーション付きアルゴリズムを開発した。
量子コンピュータとイジングマシンの出現は、より正確な推定につながる可能性がある。
我々はLightrの量子インスパイアされたデジタルプラットフォーム上でシミュレーションデータを用いて数値実験を行う。
論文 参考訳(メタデータ) (2022-09-08T13:00:30Z) - Improved Quantum Algorithms for Fidelity Estimation [77.34726150561087]
証明可能な性能保証を伴う忠実度推定のための新しい,効率的な量子アルゴリズムを開発した。
我々のアルゴリズムは量子特異値変換のような高度な量子線型代数技術を用いる。
任意の非自明な定数加算精度に対する忠実度推定は一般に困難であることを示す。
論文 参考訳(メタデータ) (2022-03-30T02:02:16Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - Approximate Dynamics Lead to More Optimal Control: Efficient Exact
Derivatives [0.0]
ここでは、この精度要件を満たすための計算可能性は、伝播スキームと問題表現の選択に依存することを示す。
この手法は、非常に高次元の力学を数値的に効率的に最適化することを可能にする。
論文 参考訳(メタデータ) (2020-05-20T10:02:19Z) - Bayesian Bits: Unifying Quantization and Pruning [73.27732135853243]
我々は、勾配に基づく最適化による混合精度量子化とプルーニングの実用的な方法であるBayesian Bitsを紹介する。
提案手法をいくつかのベンチマーク・データセット上で実験的に検証し,プレナード付き混合精度ネットワークを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-05-14T16:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。