論文の概要: StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing
- arxiv url: http://arxiv.org/abs/2605.02904v1
- Date: Sun, 05 Apr 2026 19:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.501319
- Title: StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing
- Title(参考訳): StateSMix: Mamba State Space ModelsとSparse N-gram Context Mixingによるオンラインロスレス圧縮
- Authors: Roberto Tacconelli,
- Abstract要約: StateSMixはオンライントレーニングされたMambaスタイルのステートスペースモデル(SSM)で、スパース n-gram コンテキストの混合と算術符号を持つ。
SSMはBPEトークンに対して連続的に更新された確率推定を提供し、9つのスパースn-gramハッシュテーブルは正確な局所および長距離パターン記憶を付加する。
標準のenwik8ベンチマークでは、StateSMixは1MBで2.123bpb、3MBで2.149bpb、10MBで2.162bp、xz-9e(LZMA2)を8.7%、5.4%、そして2.162bpbを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present StateSMix, a fully self-contained lossless compressor that couples an online-trained Mamba-style State Space Model (SSM) with sparse n-gram context mixing and arithmetic coding. The model is initialised from scratch and trained token-by-token on the file being compressed, requiring no pre-trained weights, no GPU, and no external dependencies. The SSM (DM=32, NL=2, approximately 120K active parameters per file) provides a continuously-updated probability estimate over BPE tokens, while nine sparse n-gram hash tables (bigram through 32-gram, 16M slots each) add exact local and long-range pattern memorisation via a softmax-invariant logit-bias mechanism that updates only non-zero-count tokens. An entropy-adaptive scaling mechanism modulates the n-gram contribution based on the SSM's predictive confidence, preventing over-correction when the neural model is already well-calibrated. On the standard enwik8 benchmark, StateSMix achieves 2.123 bpb on 1 MB, 2.149 bpb on 3 MB, and 2.162 bpb on 10 MB, beating xz -9e (LZMA2) by 8.7%, 5.4%, and 0.7% respectively. Ablation experiments establish the SSM as the dominant compression engine: it alone accounts for a 46.6% size reduction over a frequency-count baseline and beats xz without any n-gram component, while n-gram tables provide a complementary 4.1% gain through exact context memorisation. OpenMP parallelisation of the training loop yields 1.9x speedup on 4 cores. The system is implemented in pure C with AVX2 SIMD and processes approximately 2,000 tokens per second on commodity x86-64 hardware.
- Abstract(参考訳): 我々は,オンライン学習されたマンバスタイルのステートスペースモデル(SSM)と,n-gramコンテキストの疎混合と算術符号を結合した完全自己完結型ロスレス圧縮機であるStateSMixを提案する。
モデルはスクラッチから初期化され、圧縮されたファイル上でトレーニングされたトークンバイトークンで、事前トレーニングされたウェイト、GPU、外部依存関係を必要としない。
SSM(DM=32、NL=2、ファイルあたり約120Kのアクティブパラメータ)は、BPEトークンに対して連続的に更新された確率推定を提供する一方、9つのスパースn-gramハッシュテーブル(32グラム、16Mスロット毎にビグラム)は、ソフトマックス不変のロジットバイアス機構によって、正確に局所的および長距離パターン記憶を追加し、非ゼロカウントトークンのみを更新する。
エントロピー適応スケーリング機構は、SSMの予測信頼度に基づいてn-gramコントリビューションを変調し、すでにニューラルネットワークが校正されているときの過補正を防ぐ。
標準のenwik8ベンチマークでは、StateSMixは1MBで2.123bpb、3MBで2.149bpb、10MBで2.162bp、それぞれxz-9e(LZMA2)を8.7%、0.7%で上回っている。
アブレーション実験はSSMを支配的な圧縮エンジンとして確立し、周波数カウントベースラインを46.6%削減し、n-gram成分を使わずにxzを打ち負かす一方、n-gramテーブルは正確な文脈記憶によって4.1%の利得を与える。
トレーニングループのOpenMP並列化は、4コアで1.9倍のスピードアップをもたらす。
AVX2 SIMDで純粋なCで実装され、コモディティx86-64ハードウェアで毎秒約2,000トークンを処理する。
関連論文リスト
- Breaking the KV Cache Bottleneck: Fan Duality Model Achieves O(1) Decode Memory with Superior Associative Recall [0.0]
Fan Duality Modelは、シーケンスモデリングにおけるメモリ効率と連想リコールの間の緊張を解消する。
FDMはシーケンス処理を、長距離パターンを隠蔽状態に圧縮する波動成分と、特定のトークンを取得する粒子成分の2つのコンポーネントに分割する。
本稿では,再帰的なスキャンを凍結し,キャッシュを埋め込みと共に最適化する2段階のトレーニング戦略であるFreeze-Scanを提案する。
論文 参考訳(メタデータ) (2026-04-09T02:00:30Z) - Once-for-All Channel Mixers (HYPERTINYPW): Generative Compression for TinyML [0.0]
提案するHYPER-TINYPWは圧縮・アズ・ジェネレーション方式で、ほとんどのPW重みを生成された重みに置き換える。
共有マイクロMLPは、レイヤごとの小さなコードからロード時に一度PWカーネルを合成し、それらをキャッシュし、標準的な整数演算子で実行する。
商用のMCUランタイムを保存し、ワンオフでのみ追加する。
論文 参考訳(メタデータ) (2026-03-26T01:08:52Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding [0.0]
本研究では,自然言語テキストにおいて評価されたシステム間で最高の圧縮結果を得る圧縮システムであるNacrithについて述べる。
このシステムは500MBのGGUF重量と1ワーカーあたり1.2GBのVRAMしか必要としない。
Alice29 (Canterbury Corpus, 152 KB) では、Nacrith は 0th-, 1st-, 2nd-order Shannon entropy 境界以下で 0.918bits per byte (bpb) を達成する。
論文 参考訳(メタデータ) (2026-02-23T09:14:05Z) - EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices [3.5240021321113204]
大きな言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すが、その大きなストレージと計算要求は、エッジデバイスへのデプロイメントを制限している。
本稿では,エントロピー符号化と混合量子化を統合した新しい圧縮フレームワークEntroLLMを提案する。
論文 参考訳(メタデータ) (2025-05-05T05:42:14Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。