論文の概要: Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding
- arxiv url: http://arxiv.org/abs/2602.19626v1
- Date: Mon, 23 Feb 2026 09:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.747337
- Title: Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding
- Title(参考訳): Nacrith: エンサンブルコンテキストモデリングと高精度CDF符号化によるニューラルロスレス圧縮
- Authors: Roberto Tacconelli,
- Abstract要約: Nacrithは軽量なオンライン予測器と32ビット演算コーダを備えた圧縮システムである。
システムは500MBのGGUF重量と1.2GBのVRAMしか必要としない。
enwik8 (100 MB) では、Nacrith は 0.9389 bpb (11.74%) を達成し、ts_zip (1.11 bpb) を15%、FinZip (1.024 bpb) を8%上回る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Nacrith, a lossless compression system that combines a 135M-parameter transformer language model (SmolLM2-135M) with an ensemble of lightweight online predictors and a 32-bit arithmetic coder. Beyond the base LLM-plus-arithmetic-coding paradigm, Nacrith introduces several contributions: (1) a CDF precision upgrade from 2^16 to 2^24 that eliminates ~75% of quantization overhead caused by minimum-probability floors in large vocabularies; (2) a token-level N-gram model for fast local predictions; (3) an adaptive log-space bias head correcting per-document LLM errors via online gradient descent; (4) confidence-based LLM skip for accelerating highly predictable tokens; (5) a hybrid binary format (NC06) extending neural compression to arbitrary binary files--to our knowledge a first among LLM-based compressors; (6) a llama.cpp inference backend achieving ~7x faster single-token decode than PyTorch; (7) parallel multi-GPU compression across up to 8 workers; and (8) native KV cache sliding window reducing per-slide cost by ~37x. The system requires only ~500 MB of GGUF weights and ~1.2 GB VRAM per worker, running on consumer GPUs. On alice29.txt (Canterbury Corpus, 152 KB), Nacrith achieves 0.918 bits per byte (bpb)--outperforming gzip by 3.1x, bzip2 by 2.5x, CMIX v21 by 44%, and ts_zip by 20%, while compressing below the 0th-, 1st-, and 2nd-order byte-level Shannon entropy bounds. On enwik8 (100 MB), Nacrith achieves 0.9389 bpb (11.74%), surpassing ts_zip (~1.11 bpb) by 15% and FineZip (1.024 bpb) by 8% despite using a 60x smaller model with no fine-tuning. An out-of-distribution evaluation on a document published after the model's training cutoff confirms these gains are not memorization artifacts, achieving 0.723 bpb on unseen text.
- Abstract(参考訳): 135Mパラメータ変換言語モデル(SmolLM2-135M)と軽量オンライン予測器と32ビット演算コーダのアンサンブルを組み合わせた無損失圧縮システムであるNacrithを提案する。
1) 2^16 から 2^24 へのCDF精度のアップグレードで、大語彙での最小確率床による量子化オーバーヘッドの ~75% を排除し、(2) 高速な局所予測のためのトークンレベルのN-gramモデル、(3) オンラインの勾配勾配によるLLMエラーの適応ログスペースバイアス補正、(4) 高い予測可能なトークンを加速するための信頼ベースのLLMスキップ、(5) ニューラルネットワーク圧縮を任意のバイナリファイルに拡張するハイブリッドバイナリフォーマット(NC06) LLMベースの圧縮機のうち、最初の知識へと拡張する。
このシステムはGGUFの重量がわずか500MB、作業者1人あたり1.2GBのVRAMしか必要としない。
alice29.txt (Canterbury Corpus, 152 KB)では、Nacrithは1バイトあたり0.918ビットを出力し、gzipを3.1x、bzip2を2.5x、CMIX v21を44%、ts_zipを20%上回る。
enwik8 (100 MB) では、Nacrith は 0.9389 bpb (11.74%) を達成し、ts_zip (~1.11 bpb) を15%、FinZip (1.024 bpb) を8%上回る。
モデルのトレーニングカット後に公開された文書のアウト・オブ・ディストリビューション評価では、これらのゲインが暗記アーティファクトではなく、目に見えないテキストで0.723 bpbに達することが確認されている。
関連論文リスト
- Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth [0.0]
Unsloth上で3.5倍のスピードアップを実現したオープンソースのトレーニングフレームワークであるCentralsを紹介します。
オンラインのソフトマックスの正しさ、FlashAttention IO complexity O(N2 d2 M-1)、LoRA+学習速度勾配近似など、完全な数学的基礎を提供する。
論文 参考訳(メタデータ) (2026-01-06T00:00:55Z) - EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices [3.5240021321113204]
大きな言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すが、その大きなストレージと計算要求は、エッジデバイスへのデプロイメントを制限している。
本稿では,エントロピー符号化と混合量子化を統合した新しい圧縮フレームワークEntroLLMを提案する。
論文 参考訳(メタデータ) (2025-05-05T05:42:14Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。