論文の概要: BitSnap: Checkpoint Sparsification and Quantization in LLM Training
- arxiv url: http://arxiv.org/abs/2511.12376v2
- Date: Tue, 18 Nov 2025 02:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.780619
- Title: BitSnap: Checkpoint Sparsification and Quantization in LLM Training
- Title(参考訳): BitSnap: LLMトレーニングにおけるチェックポイントスペーシングと量子化
- Authors: Yanxin Peng, Qingping Li, Baodong Wu, Shigang Li, Guohao Dai, Shengen Yan, Yu Wang,
- Abstract要約: 大規模言語モデル(LLM)は、サイズと複雑さを増し続けている。
LLMトレーニングでは、ストレージ、メモリ使用量、耐障害性を管理する上で、効率的なチェックポイントの保存とロードが重要になっている。
本稿では,異なるトレーニングステージやモデルアーキテクチャに動的に適用可能な,新しいチェックポイントスペーシングと量子化手法を提案する。
- 参考スコア(独自算出の注目度): 12.420041526429287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) continue to grow in size and complexity, efficient checkpoint saving\&loading has become crucial for managing storage, memory usage, and fault tolerance in LLM training. The current works do not comprehensively take into account the optimization of these several aspects. This paper proposes a novel checkpoint sparsification and quantization method that adapts dynamically to different training stages and model architectures. We present a comprehensive analysis of existing lossy and lossless compression techniques, identify current limitations, and introduce our adaptive approach that balances compression ratio, speed, and precision impact throughout the training process. Experiments on different sizes of LLMs demonstrate that our bitmask-based sparsification method achieves 16x compression ratio without compromising model accuracy. Additionally, the cluster-based quantization method achieves 2x compression ratio with little precision loss.
- Abstract(参考訳): 大規模言語モデル(LLM)のサイズと複雑さが拡大するにつれ、LLMトレーニングにおけるストレージ、メモリ使用量、フォールトトレランスの管理において、効率的なチェックポイント保存/ロードが重要になっている。
現在の研究は、これらのいくつかの側面の最適化を包括的に考慮していない。
本稿では,異なるトレーニングステージやモデルアーキテクチャに動的に適用可能な,新しいチェックポイントスペーシングと量子化手法を提案する。
既存の損失・損失のない圧縮手法を総合的に分析し、現在の限界を同定し、トレーニングプロセス全体を通して圧縮率、速度、精度のバランスをとる適応的アプローチを提案する。
LLMの異なるサイズでの実験により, モデル精度を損なうことなく, ビットマスクを用いたスペーシング法により16倍の圧縮比が得られることが示された。
さらに、クラスタベースの量子化法は、精度の低下が少ない2倍圧縮比を達成する。
関連論文リスト
- Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Adacc: An Adaptive Framework Unifying Compression and Activation Recomputation for LLM Training [40.371351103295765]
大きな言語モデル(LLM)のトレーニングは、GPUメモリの制限によって制限されることが多い。
Adaccはアクティベーション再計算とデータ圧縮を統合する最初の適応型メモリ最適化フレームワークである。
Adaccは、最先端のフレームワークと比較して、トレーニングのスループットを1.01倍から1.37倍改善している。
論文 参考訳(メタデータ) (2025-08-01T17:39:25Z) - Flexible Mixed Precision Quantization for Learned Image Compression [4.847449762378203]
本稿では、異なるビット幅を量子化されたネットワークの異なる層に割り当てるフレキシブル混合精密量子化法(FMPQ)を提案する。
また、量子化ビット幅の所望分布を探索する際の時間複雑度を低減する適応探索アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-06-02T00:12:50Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Nearly Lossless Adaptive Bit Switching [8.485009775430411]
ImageNet-1K分類の実験結果から,本手法は多精度・混合精度の両面において,最先端のワンショットジョイントQATに十分な利点があることが示された。
論文 参考訳(メタデータ) (2025-02-03T09:46:26Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - AdpQ: A Zero-shot Calibration Free Adaptive Post Training Quantization Method for LLMs [22.25748046511075]
AdpQは大規模言語モデル(LLM)のための新しいゼロショット適応型PTQ法である
キャリブレーションデータを必要としない低精度量子化における最先端の性能を実現する。
その結果,LLMベンチマークの既存手法と同様の精度が得られ,量子化時間は少なくとも10倍に短縮された。
論文 参考訳(メタデータ) (2024-05-22T05:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。