論文の概要: RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs
- arxiv url: http://arxiv.org/abs/2602.05367v1
- Date: Thu, 05 Feb 2026 06:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.793355
- Title: RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs
- Title(参考訳): RaBiT: 高精度かつ効率的なLLMのための残留認識二元化訓練
- Authors: Youngcheon You, Banseok Lee, Minseop Choi, Seonyoung Kim, Hyochan Chong, Changdong Kim, Youngmin Kim, Dongkyu Kim,
- Abstract要約: 残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。
本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。
RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
- 参考スコア(独自算出の注目度): 5.782015253162346
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient deployment of large language models (LLMs) requires extreme quantization, forcing a critical trade-off between low-bit efficiency and performance. Residual binarization enables hardware-friendly, matmul-free inference by stacking binary ($\pm$1) layers, but is plagued by pathological feature co-adaptation. We identify a key failure mode, which we term inter-path adaptation: during quantization-aware training (QAT), parallel residual binary paths learn redundant features, degrading the error-compensation structure and limiting the expressive capacity of the model. While prior work relies on heuristic workarounds (e.g., path freezing) that constrain the solution space, we propose RaBiT, a novel quantization framework that resolves co-adaptation by algorithmically enforcing a residual hierarchy. Its core mechanism sequentially derives each binary path from a single shared full-precision weight, which ensures that every path corrects the error of the preceding one. This process is stabilized by a robust initialization that prioritizes functional preservation over mere weight approximation. RaBiT redefines the 2-bit accuracy-efficiency frontier: it achieves state-of-the-art performance, rivals even hardware-intensive Vector Quantization (VQ) methods, and delivers a $4.49\times$ inference speed-up over full-precision models on an RTX 4090.
- Abstract(参考訳): 大規模言語モデル(LLM)の効率的なデプロイには極端に量子化が必要であり、低ビット効率と性能の間に重要なトレードオフが生じる。
残留バイナライゼーションにより、ハードウェアフレンドリーでマットマフリーな推論が可能となり、バイナリ($\pm$1)層を積み重ねることができるが、病的特徴の共適応に悩まされている。
QAT(quantization-aware training)において、並列残差バイナリパスは冗長な特徴を学習し、エラー補償構造を劣化させ、モデルの表現能力を制限する。
先行研究は解空間を制約するヒューリスティックな回避法(例えば経路凍結法)に頼っているが、アルゴリズム的に残留階層を強制することによって共適応を解く新しい量子化フレームワークであるRaBiTを提案する。
そのコアメカニズムは、各バイナリパスを1つの共有完全精度重みから逐次引き起こし、各パスが前のパスの誤りを補正することを保証している。
このプロセスは、単に重量近似よりも機能保存を優先する頑健な初期化によって安定化される。
RaBiTは2ビットの精度・効率のフロンティアを再定義し、最先端の性能を実現し、ハードウェア集約型ベクトル量子化(VQ)の手法にも対抗し、RTX 4090のフル精度モデルよりも4.49\times$推論スピードアップを提供する。
関連論文リスト
- Fairy2i: Training Complex LLMs from Real LLMs with All Parameters in $\{\pm 1, \pm i\}$ [11.09481608287424]
事前学習された実数値層を等価な広線形複素形式に変換する普遍的なフレームワークである Fairy2i を提案する。
また,Fairy2iはLLaMA-2 7Bの性能を実効2ビット精度で復元することを示した。
論文 参考訳(メタデータ) (2025-12-02T16:14:08Z) - OTARo: Once Tuning for All Precisions toward Robust On-Device LLMs [21.55040910903597]
OTARoはデバイス上の大規模言語モデルで量子化精度を柔軟に切り替えることができる新しい手法である。
すべての精度で一貫して強固で堅牢なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-17T08:56:27Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Progressive Binarization with Semi-Structured Pruning for LLMs [36.91249209658632]
半構造化プルーニング(PBS$2$P)によるプログレッシブバイナリ化を提案し,バイナライゼーションと半構造化プルーニングをシームレスに統合する新しいポストトレーニングフレームワークを提案する。
PBS$2$P は,2進法(SOTA) の2進法を複雑度と下流精度の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。