論文の概要: More Than Bits: Multi-Envelope Double Binary Factorization for Extreme Quantization
- arxiv url: http://arxiv.org/abs/2512.24545v1
- Date: Wed, 31 Dec 2025 01:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.523395
- Title: More Than Bits: Multi-Envelope Double Binary Factorization for Extreme Quantization
- Title(参考訳): ビットを超える:超量子化のためのマルチエンベロープ二重二元因子化
- Authors: Yuma Ichikawa, Yoshihiko Fujisawa, Yudai Fujimoto, Akira Sakai, Katsuki Fujisawa,
- Abstract要約: 本稿では,1ビットの符号ベースを共有するマルチエンベロープDBF(MDBF)を提案する。
MDBFはバイナリキャリアを効果的に維持し、メモリ予算を極大に制限している。
LLaMAおよびQwenファミリ全体で、MDBFは、1重あたりの一致ビットで以前のバイナリフォーマットよりも難易度とゼロショットの精度を高める。
- 参考スコア(独自算出の注目度): 5.790458475928127
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For extreme low-bit quantization of large language models (LLMs), Double Binary Factorization (DBF) is attractive as it enables efficient inference without sacrificing accuracy. However, the scaling parameters of DBF are too restrictive; after factoring out signs, all rank components share the same magnitude profile, resulting in performance saturation. We propose Multi-envelope DBF (MDBF), which retains a shared pair of 1-bit sign bases but replaces the single envelope with a rank-$l$ envelope. By sharing sign matrices among envelope components, MDBF effectively maintains a binary carrier and utilizes the limited memory budget for magnitude expressiveness. We also introduce a closed-form initialization and an alternating refinement method to optimize MDBF. Across the LLaMA and Qwen families, MDBF enhances perplexity and zero-shot accuracy over previous binary formats at matched bits per weight while preserving the same deployment-friendly inference primitive.
- Abstract(参考訳): 大規模言語モデル(LLM)の極端に低ビット量子化のためには、精度を犠牲にすることなく効率的な推論を可能にするため、DBF(Double Binary Factorization)が魅力的である。
しかし、DBFのスケーリングパラメータはあまりに制限的であり、符号を分解した後、すべてのランクコンポーネントは同じ大きさのプロファイルを共有し、パフォーマンスが飽和する。
本稿では,1ビットの符号ベースを共有するマルチエンベロープDBF(MDBF)を提案する。
封筒コンポーネント間で符号行列を共有することで、MDBFはバイナリキャリアを効果的に維持し、メモリ予算を極大表現性のために利用する。
また、MDBFを最適化するクローズドフォーム初期化法と交互改質法も導入する。
LLaMAとQwenファミリ全体で、MDBFは、同じデプロイメントフレンドリーな推論プリミティブを保ちながら、1重あたりの一致したビットで、以前のバイナリフォーマットよりも難易度とゼロショットの精度を高める。
関連論文リスト
- From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs [58.640039233470766]
原理的AR-to-block-diffusion適応は,DLMをスクラッチからトレーニングする上で,有効かつ効率的な代替手段であることを示す。
NBDiff-7B(BaseとInstruct)は、長文のモデリングと推論機能を継承し、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-07T10:28:21Z) - Memory- and Latency-Constrained Inference of Large Language Models via Adaptive Split Computing [8.705453442427585]
大規模言語モデル(LLM)は様々な推論タスクでほぼ人間に近い性能を達成した。
リソース制約のあるIoT(Internet-of-Things)デバイスへのデプロイメントは、大量のパラメータフットプリントとメモリ集約型の自己回帰デコーディングのため、依然として現実的ではない。
この研究は、エッジデバイスにLLMを配置するために明示的に設計された最初の自動回帰対応分割コンピューティングフレームワークを紹介した。
論文 参考訳(メタデータ) (2025-11-06T02:55:07Z) - Efficient and Privacy-Preserving Binary Dot Product via Multi-Party Computation [4.336006969179338]
本稿ではビットワイド演算のための新しいバイナリマルチパーティ計算(BiMPC)フレームワークを提案する。
BiMPCの中核はDot Product via Modular Addition (DoMA)と呼ばれる新しいアプローチである。
BiMPCフレームワークのプライバシー保証は厳格に分析され、分散環境での効率性とスケーラビリティを示している。
論文 参考訳(メタデータ) (2025-10-18T03:35:42Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Addition is almost all you need: Compressing neural networks with double binary factorization [0.0]
二重二元因子化(DBF)は、密度重み行列を2つの二元行列の積に分解する新しい方法である。
DBFは2値表現の効率性を保ちつつ、最先端の手法と競合する圧縮率を達成する。
重量あたりの2ビットでは、DBFはQuIP#やQTIPのような最高の量子化手法と競合する。
論文 参考訳(メタデータ) (2025-05-16T10:07:36Z) - BiMaCoSR: Binary One-Step Diffusion Model Leveraging Flexible Matrix Compression for Real Super-Resolution [63.777210548110425]
本稿では,バイナライゼーションと1段階蒸留を組み合わせたBiMaCoSRを提案する。
BiMaCoSRはFPに比べて23.8倍圧縮率と27.4倍スピードアップ比を達成した。
論文 参考訳(メタデータ) (2025-02-01T06:34:55Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Improving Misaligned Multi-modality Image Fusion with One-stage
Progressive Dense Registration [67.23451452670282]
多モード画像間の相違は、画像融合の課題を引き起こす。
マルチスケールプログレッシブ・センス・レジストレーション方式を提案する。
このスキームは、一段階最適化のみで粗大な登録を行う。
論文 参考訳(メタデータ) (2023-08-22T03:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。