論文の概要: BitSkip: An Empirical Analysis of Quantization and Early Exit Composition
- arxiv url: http://arxiv.org/abs/2510.23766v1
- Date: Mon, 27 Oct 2025 18:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.42087
- Title: BitSkip: An Empirical Analysis of Quantization and Early Exit Composition
- Title(参考訳): BitSkip: 量子化と初期出力組成の実証分析
- Authors: Ramshankar Bhuvaneswaran, Handan Liu,
- Abstract要約: 本稿では,BitSkipについて紹介する。
アダマール変換のない単純な8ビット量子化モデル(BitSkip-V1)は、より複雑な4ビットおよびアダマール強化のモデルよりも優れているだけでなく、品質の完全精度のベースラインと競合する。
- 参考スコア(独自算出の注目度): 7.583232898318685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pursuit of efficient Large Language Models (LLMs) has led to increasingly complex techniques like extreme quantization and dynamic routing. While individual benefits of these methods are well-documented, their compositional effects remain poorly understood. This paper introduces BitSkip, a hybrid architectural framework for systematically explor- ing these interactions. Counter-intuitively, our findings reveal that a simple 8-bit quantized model without Hadamard transform (BitSkip-V1) not only outperforms its more complex 4-bit and Hadamard-enhanced counterparts but also competes the full-precision baseline in quality (perplexity of 1.13 vs 1.19) . The introduction of Hadamard transforms, even at 8- bit precision, catastrophically degraded performance by over 37,000%, tracing fundamental training instability. Our BitSkip-V1 recipe demonstrates superior early-exit characteristics, with layer 18 providing optimal 32.5% speed gain for minimal 4% quality loss.
- Abstract(参考訳): 効率的なLarge Language Models (LLM) の追求は、極端な量子化や動的ルーティングといった、ますます複雑な技術を生み出している。
これらの手法の個々の利点は十分に文書化されているが、その構成効果はよく理解されていない。
本稿では,これらのインタラクションを体系的に探索するハイブリッドアーキテクチャフレームワークBitSkipを紹介する。
その結果,アダマール変換を含まない単純な8ビット量子化モデル(BitSkip-V1)は,より複雑な4ビットおよびアダマール拡張モデルよりも優れるだけでなく,品質(1.13対1.19)の完全精度ベースラインと競合することがわかった。
アダマール変換の導入は、たとえ8ビットの精度でも、破滅的な性能を37,000%以上低下させ、基本的なトレーニング不安定性を追求した。
我々のBitSkip-V1レシピは、品質損失を最小4%に抑えるために、最適32.5%のスピードゲインを提供するレイヤ18で、より優れた早期退避特性を示す。
関連論文リスト
- Binary Quantization For LLMs Through Dynamic Grouping [13.578307208515819]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
16ビットのBrain Floatから-1,1の1ビットの表現にモデル重みを圧縮するバイナリ量子化は、ストレージと推論コストを大幅に削減する。
本稿では,2値量子化に適した新しい最適化目標と,これを効果的に実現するための3つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-03T06:36:21Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Optimization of embeddings storage for RAG systems using quantization and dimensionality reduction techniques [0.0]
本研究では,float8量子化により,性能劣化を最小限に抑えつつ,ストレージの4倍の低減を実現することを示す。
PCAは最も効果的な次元削減技術として出現する。
本稿では,最適構成を特定するために,性能記憶トレードオフ空間を可視化する手法を提案する。
論文 参考訳(メタデータ) (2025-04-30T18:20:16Z) - ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization [73.60493264901359]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。