論文の概要: BCJR-QAT: A Differentiable Relaxation of Trellis-Coded Weight Quantization
- arxiv url: http://arxiv.org/abs/2605.10655v1
- Date: Mon, 11 May 2026 14:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.904438
- Title: BCJR-QAT: A Differentiable Relaxation of Trellis-Coded Weight Quantization
- Title(参考訳): BCJR-QAT:トレリス符号重み量子化の微分緩和
- Authors: Venugopalan Iyengar,
- Abstract要約: BCJR-QATは,温度$T$で,argmaxをBCJRの前方逆和積アルゴリズムに置き換える緩和法である。
我々は,BCJR-QATがWikiText-2上でQTIP-PTQを$mathbf-0.084$ PPLで上回ることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trellis-coded quantization sets the current 2-bit post-training frontier for LLMs (QTIP), but pushing below the PTQ ceiling requires quantization-aware training, and QAT on a trellis is obstructed by the non-differentiable Viterbi argmax. We introduce BCJR-QAT, a relaxation that replaces the argmax with the BCJR forward-backward sum-product algorithm at temperature $T$, producing a soft codeword equal to the Boltzmann expectation over trellis paths, exactly differentiable, recovering the hard QTIP code as $T \to 0$, and mathematically identical to the transfer-matrix computation for a 1D Ising-like spin chain. We contribute (i) a fused Triton kernel making BCJR tractable on a single consumer GPU ($6.57\times$ speedup, fp32 parity); (ii) a quantitative drift-budget theory of when BCJR-QAT can escape the QTIP-PTQ Voronoi basin, verified across four experiments; and (iii) a positive empirical result on Llama-3.2-1B at 2 bpw under end-to-end forward-KL distillation: with the right schedule (skip the high-$T$ phase to avoid an overshoot we diagnose), single-layer BCJR-QAT beats QTIP-PTQ by $\mathbf{-0.084}$ PPL on WikiText-2, and multi-layer compounding is super-additive.
- Abstract(参考訳): トレリス符号化量子化は、現在のLLMの2ビット後処理フロンティア(QTIP)をセットするが、PTQ天井の下を押下するには量子化対応のトレーニングが必要であり、トレリス上のQATは非微分可能ビタビargmaxによって妨害される。
BCJR-QATは、Argmaxを温度$T$でBCJRフォワードの和積アルゴリズムに置き換え、トレリスパス上のボルツマン予想に匹敵するソフトコードワードを生成し、硬質QTIPコードを$T \to 0$で回収し、数学的には1D Ising型スピンチェーンの転送行列計算と同一である。
コントリビューション
(i)BCJRを1つの消費者向けGPU(6.57\times$ speedup, fp32 parity)でトラクタブルに融合したTritonカーネル
(II)4つの実験で検証されたQTIP-PTQボロノイ盆地からBCJR-QATが脱出可能な量的ドリフト予算理論
3)Llama-3.2-1Bを2bpwの終末-終末-KL蒸留で有意な実験結果:正しいスケジュール(過剰な診断を避けるために高T$フェーズをスキップ)で、単層BCJR-QATはWikiText-2上でQTIP-PTQを$\mathbf{-0.084}$PPLで打ち、多層化合物は超添加である。
関連論文リスト
- Fixed-Reservoir vs Variational Quantum Architectures for Chaotic Dynamics: Benchmarking QRC and QPINN on the Lorenz System [0.14323566945483496]
ロレンツ系におけるカオス時系列予測のための2つの量子的アプローチを比較する。
本研究では,QRCパイプライン内の時間的ウィンドウ化手法を定式化し,アトラクタ再構成を改善する。
以上の結果から, 固定貯留層構造がQRCの優位性の主要な要因であることが示唆された。
論文 参考訳(メタデータ) (2026-04-26T14:43:03Z) - GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling [36.47926569464477]
GSQ(Gumbel-Softmax Quantization)は,グループ単位のグリッド割り当てとグループ単位のスケールを協調的に学習する,学習後のスカラー量子化手法である。
標準のLlama-3.1-8B/70B-Instructモデルでは、GSQはスカラー量子化とQTIPフロンティアの差の大部分を2ビットと3ビットで閉じている。
GSQは,ベクトル量子化法の適用が困難なKim-K2.5のような1兆倍スケールのMixture-of-Expertsモデルにスケールすることを示す。
論文 参考訳(メタデータ) (2026-04-20T17:45:47Z) - Phase-Fidelity-Aware Truncated Quantum Fourier Transform for Scalable Phase Estimation on NISQ Hardware [0.0]
emphPhase-Fidelity-Aware Truncated QFT (PFA-TQFT)について紹介する。
PFA-TQFTは、ハードウェアキャリブレーションされた忠実度閾値$eps$以下の制御相回転を省略する。
我々は, IBM Eagle/Heron と IonQAria のゲート数削減を無視できる精度で, m = 30 で 31.3 -43.7% を実証した。
論文 参考訳(メタデータ) (2026-04-07T05:39:21Z) - Covariant quantum error correction in a three-layer quantum brain model: computational analysis of layer-specific coherence dynamics [0.0]
2つのラジカル対タンパク質間の近似共変量子誤差補正(CQEC)を評価する。
CQECは0.83(95% CI [0.76, 0.79)のコヒーレンスを維持している。
T = 26$msでは、CQECで保護されたコヒーレンスが0.69のままである。
論文 参考訳(メタデータ) (2026-03-31T11:47:00Z) - qc-kmeans: A Quantum Compressive K-Means Algorithm for NISQ Devices [3.4129039170001314]
NISQハードウェア上のクラスタリングは、データローディングと限定キュービットによって制限される。
提案するqc-kmeansは,QAOA回路が浅いグループごとのQUBOを解くことで,一定のサイズのフーリエ特徴スケッチでデータセットを要約し,セントロイドを選択するハイブリッドな$k$-meansである。
論文 参考訳(メタデータ) (2025-10-26T05:44:17Z) - CLQ: Cross-Layer Guided Orthogonal-based Quantization for Diffusion Transformers [40.34990427735821]
トレーニング後の量子化(PTQ)は、メモリ消費を減らし、推論を高速化する。
直交型直交量子化法であるCLQを提案する。
我々は、画像生成モデルと映像生成モデルの両方でCLQを評価し、視覚的品質とメトリクスの無視できる劣化を伴って、モデルをW4A4に圧縮することに成功した。
論文 参考訳(メタデータ) (2025-09-29T08:06:42Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks [37.66253003964376]
後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを減らし、その重みを低精度に定量化する。
重みのみのPTQ方式であるQuIP#を導入する。
実験の結果,QuIP#は既存のPTQメソッドよりも優れ,PTQスケーリングにおける新しい動作を可能にし,高速な推論をサポートすることがわかった。
論文 参考訳(メタデータ) (2024-02-06T20:52:12Z) - Realization of arbitrary doubly-controlled quantum phase gates [62.997667081978825]
本稿では,最適化問題における短期量子優位性の提案に着想を得た高忠実度ゲートセットを提案する。
3つのトランペット四重項のコヒーレントな多レベル制御を編成することにより、自然な3量子ビット計算ベースで作用する決定論的連続角量子位相ゲートの族を合成する。
論文 参考訳(メタデータ) (2021-08-03T17:49:09Z) - A Provably-Efficient Model-Free Algorithm for Constrained Markov
Decision Processes [13.877420496703627]
本稿では,制約付きマルコフ決定過程(CMDP)に対するモデルフリーでシミュレータフリーな強化学習アルゴリズムを提案する。
このアルゴリズムは、累積報酬のQ-関数、制約の累積効用Q-関数、累積制約違反を推定する仮想キューの3つの主要な成分を持つため、トリプルQと名付けられた。
論文 参考訳(メタデータ) (2021-06-03T03:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。