Fugu-MT 論文翻訳(概要): Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

論文の概要: Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

arxiv url: http://arxiv.org/abs/2602.19626v2
Date: Tue, 24 Feb 2026 11:10:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 13:30:08.566055
Title: Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding
Title（参考訳）: Nacrith: エンサンブルコンテキストモデリングと高精度CDF符号化によるニューラルロスレス圧縮
Authors: Roberto Tacconelli,
Abstract要約: 本研究では,自然言語テキストにおいて評価されたシステム間で最高の圧縮結果を得る圧縮システムであるNacrithについて述べる。このシステムは500MBのGGUF重量と1ワーカーあたり1.2GBのVRAMしか必要としない。 Alice29 (Canterbury Corpus, 152 KB) では、Nacrith は 0th-, 1st-, 2nd-order Shannon entropy 境界以下で 0.918bits per byte (bpb) を達成する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Nacrith, a lossless compression system that combines a 135M-parameter transformer language model (SmolLM2-135M) with an ensemble of lightweight online predictors and a 32-bit arithmetic coder, achieving the best compression results among the systems evaluated in this study on natural language text. Beyond the base LLM-plus-arithmetic-coding paradigm, Nacrith introduces several contributions: (1) a CDF precision upgrade from 2^16 to 2^24 that eliminates ~75% of quantization overhead caused by minimum-probability floors in large vocabularies; (2) a token-level N-gram model for fast local predictions; (3) an adaptive log-space bias head correcting per-document LLM errors via online gradient descent; (4) confidence-based LLM skip for accelerating highly predictable tokens; (5) a hybrid binary format (NC06) extending neural compression to arbitrary binary files--to our knowledge a first among LLM-based compressors; (6) a llama cpp inference backend achieving ~7x faster single-token decode than PyTorch; (7) parallel multi-GPU compression across up to 8 workers; and (8) native KV cache sliding window reducing per-slide cost by ~37x. The system requires only ~500 MB of GGUF weights and ~1.2 GB VRAM per worker, running on consumer GPUs. On alice29 (Canterbury Corpus, 152 KB), Nacrith achieves 0.918 bits per byte (bpb)--outperforming gzip by 3.1x, bzip2 by 2.5x, CMIX v21 by 44%, and ts_zip by 20%, while compressing below the 0th-, 1st-, and 2nd-order byte-level Shannon entropy bounds. On enwik8 (100 MB), Nacrith achieves 0.9389 bpb (11.74%), surpassing ts_zip (~1.11 bpb) by 15% and FineZip (1.024 bpb) by 8% despite using a 60x smaller model with no fine-tuning. An out-of-distribution (OOD) evaluation on a document published after the model's training cutoff confirms these gains are not memorization artifacts, achieving 0.723 bpb on unseen text.
Abstract（参考訳）: 本研究では,135Mパラメータ変換言語モデル(SmolLM2-135M)と軽量なオンライン予測器と32ビット演算コーダのアンサンブルを組み合わせた無損失圧縮システムであるNacrithについて述べる。 1) 2^16 から 2^24 への CDF 精度アップグレード大規模な語彙における最小確率床による量子化オーバーヘッドの ~75% を除去する (3) 高速局所予測のためのトークンレベルのN-gram モデル (3) 適応ログ空間バイアスヘッドオンライン勾配勾配による LLM エラーの修正 (4) 高い予測可能なトークンを加速するための信頼ベースの LLM スキップ (5) 任意のバイナリファイルに神経圧縮を拡張 ; LLM ベースの圧縮機のうち、最初の知識まで、任意のバイナリファイルに拡張 ; (6) LLM ベースの圧縮機、 (7) llama cpp in single-token ～ 7 のバックエンド、 (7) 並列デコードよりも高速な (8) の圧縮 ; (8) マルチスライディング (8) のスライディングのコスト削減。このシステムはGGUFの重量がわずか500MB、作業者1人あたり1.2GBのVRAMしか必要としない。 Alice29 (Canterbury Corpus, 152 KB) では、Nacrith は gzip を3.1x、bzip2 を2.5x、CMIX v21 を44%、ts_zip を20%、0階、第1階、第2階のシャノンエントロピー境界以下で圧縮する。 enwik8 (100 MB) では、Nacrith は 0.9389 bpb (11.74%) を達成し、ts_zip (~1.11 bpb) を15%、FinZip (1.024 bpb) を8%上回る。モデルのトレーニングカットオフ後に公開されたドキュメントのアウト・オブ・ディストリビューション(OOD)評価では、これらの成果は記憶されたアーティファクトではないことが確認され、目に見えないテキストで0.723 bpbに達する。

関連論文リスト

Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth [0.0]
Unsloth上で3.5倍のスピードアップを実現したオープンソースのトレーニングフレームワークであるCentralsを紹介します。オンラインのソフトマックスの正しさ、FlashAttention IO complexity O(N2 d2 M-1)、LoRA+学習速度勾配近似など、完全な数学的基礎を提供する。
論文参考訳（メタデータ） (2026-01-06T00:00:55Z)
Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文参考訳（メタデータ） (2025-10-17T16:57:42Z)
H1B-KV: Hybrid One-Bit Caches for Memory-Efficient Large Language Model Inference [0.0]
本稿では,Hybrid One-Bit KV Cache(H1B-KV)を提案する。以上の結果から,H1B-KVの量子化(KIVI),トークン消去(SparseLLM),キーのみのスケッチ法(Loki)は,バイト単位の品質で有意に優れていた。
論文参考訳（メタデータ） (2025-10-07T02:39:35Z)
R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。 CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文参考訳（メタデータ） (2025-05-22T16:06:59Z)
EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices [3.5240021321113204]
大きな言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すが、その大きなストレージと計算要求は、エッジデバイスへのデプロイメントを制限している。本稿では,エントロピー符号化と混合量子化を統合した新しい圧縮フレームワークEntroLLMを提案する。
論文参考訳（メタデータ） (2025-05-05T05:42:14Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。 11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文参考訳（メタデータ） (2025-02-02T13:10:06Z)
Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data [8.475091996107741]
我々は、事前学習したトランスフォーマーが競合圧縮比を達成できるスイートスポットを見つけるために、大規模な研究を行う。比較的小さなパラメータは、標準的な汎用圧縮アルゴリズムより優れていることが判明した。たとえ小さなモデルであっても、複数のモダリティでうまく機能するように訓練できるが、大規模な基礎モデルとは異なり、目に見えないモダリティへの移動は一般的に弱い。
論文参考訳（メタデータ） (2024-10-07T14:32:03Z)
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文参考訳（メタデータ） (2023-10-25T17:24:53Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。 SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文参考訳（メタデータ） (2021-01-13T08:28:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。