論文の概要: Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model
- arxiv url: http://arxiv.org/abs/2603.04162v2
- Date: Thu, 05 Mar 2026 10:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.454962
- Title: Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model
- Title(参考訳): Bielik-Q2-Sharp:ポーランド語11B言語モデルにおける極2ビット量子化法の比較検討
- Authors: Jakub Prejzner,
- Abstract要約: ポーランド語大言語モデルに適用された極端2ビット量子化の最初の体系的学術評価であるBielik-Q2-Sharpを提案する。
我々は、QuIP#、SpinQuant+GPTQ、ButterflyQuant、QTIP、VPTQ、AQLMの6つの最先端のポストトレーニング量子化手法を比較した。
私たちのベストバリアント(QuIP# E8P12)は22のポーランドのベンチマークで71.92%、IQ2_XXSベースラインでは72.07%を達成しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Bielik-Q2-Sharp, the first systematic academic evaluation of extreme 2-bit quantization applied to a Polish large language model. Using Bielik-11B-v2.3-Instruct (11B parameters, Mistral architecture) as our base model, we compare six state-of-the-art post-training quantization methods -- QuIP#, SpinQuant+GPTQ, ButterflyQuant, QTIP, VPTQ, and AQLM -- all calibrated on a Polish-language corpus (CulturaX-PL) with shared Hessian matrices. Our best variant (QuIP# E8P12) achieves 71.92% across 22 Polish benchmarks versus 72.07% for the IQ2_XXS baseline -- within statistical noise, at a modest size premium (3.26 GB vs. ~2.6 GB). On eq_bench, our method scores 47.14 versus 43.53 (+3.6pp), suggesting superior preservation of higher-order reasoning. QTIP achieves the best per-bit efficiency (79.4% MC acc_norm at ~2.4 bpw, 3.27 GB), matching VPTQ's quality at 35% smaller size. We additionally document a MC-generation dissociation phenomenon where rotation-based methods preserve log-likelihood quality but fail catastrophically at autoregressive generation. The entire project was conducted by a single independent researcher on cloud GPUs (vast.ai) within a $285 budget. All models, Hessians, and evaluation logs are publicly available.
- Abstract(参考訳): ポーランド語大言語モデルに適用された極端2ビット量子化の最初の体系的学術評価であるBielik-Q2-Sharpを提案する。
Bielik-11B-v2.3-Instruct (11Bパラメータ、Mistralアーキテクチャ)をベースモデルとして,6つの最先端のポストトレーニング量子化手法 – QuIP#, SpinQuant+GPTQ, ButterflyQuant, QTIP, VPTQ, AQLM – を比較した。
我々の最良の変種(QuIP# E8P12)は22のポーランドのベンチマークで71.92%、IQ2_XXSベースラインでは72.07%、統計ノイズでは3.26GBか~2.6GBである。
eq_benchでは43.53(+3.6pp)に対して47.14(+3.6pp)であった。
QTIPは1ビットあたりの最高効率 (79.4% MC acc_norm ~2.4 bpw, 3.27 GB) を達成し、VPTQの品質を35%小さくする。
また, 回転法により対数的品質を維持するが, 自己回帰生成時に破滅的に失敗するMC世代解離現象を報告した。
プロジェクト全体は、クラウドGPU(vast.ai)に関する独立した1人の研究者によって、285ドルの予算で実施された。
すべてのモデル、Hessian、評価ログが公開されている。
関連論文リスト
- Chain of Simulation: A Dual-Mode Reasoning Framework for Large Language Models with Dynamic Problem Routing [0.0]
Chain of Simulation(CoS)は、動的に問題を特別な推論戦略にルーティングする新しいデュアルモード推論フレームワークである。
CoSは、数学的問題に対する自己整合性を伴う計算フロー、空間的推論のための表現を伴う記号的状態追跡、マルチホップ推論のためのハイブリッド事実抽出という3つの異なる推論モードを採用している。
論文 参考訳(メタデータ) (2026-02-02T21:44:01Z) - Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought [23.847410628315544]
英語とターゲット言語を切り替える推論スキーマである**Language-Mixed CoT**を紹介する。
我々は6つのファミリー(Qwen2.5、Llama-3.1、Gemma-3など)でNinveモデル(4B-35B)を訓練する。
我々のベストモデル**KO-REAson-35B*は、平均スコア(64.0 pm 25)で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-05T14:39:41Z) - Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models [4.238165821317982]
LieQは、極端に低ビット圧縮下でのサブ7Bモデルの精度を維持するという課題に対処するメトリック駆動フレームワークである。
提案手法では,3つの相補的レイヤワイド診断手法(パープレキシティ・ドロップ,表現コンパクト性,トップkエネルギーゲイン)を導入している。
Qwen3-4Bでは、2.05ビット量子化でFP16ベースライン性能の95.9%を回復し、GPTQを19.7%、AWQを18.1%上回った。
論文 参考訳(メタデータ) (2025-08-05T11:17:04Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
本稿では LLM PTQ のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-18T07:35:35Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models [11.708250566573334]
大規模言語モデル(LLM)の極低ビット量子化のためのベクトル後学習量子化(VPTQ)を導入する。
VPTQはLLaMA-2で0.01$-$0.34$、Mistral-7Bで0.38$-$0.68$、LLaMA-3で4.41$-$7.34$を2ビットで還元する。
また、モデル精度を高め、モデルをさらに圧縮する残差量子化および外れ値量子化をサポートするためにVPTQを拡張した。
論文 参考訳(メタデータ) (2024-09-25T16:25:45Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models [12.006605064782567]
APTQ (Attention-aware Post-Training Mixed-Precision Quantization) を提案する。
我々は、ヘッセントレースを混合精度量子化の感度指標として利用し、情報精度の低下を確実にする。
実験の結果、APTQは従来の量子化法を超え、平均4ビット幅と5.22パープレキシティを達成した。
論文 参考訳(メタデータ) (2024-02-21T07:45:22Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。