論文の概要: Single-Stage Huffman Encoder for ML Compression
- arxiv url: http://arxiv.org/abs/2601.10673v1
- Date: Thu, 15 Jan 2026 18:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.267323
- Title: Single-Stage Huffman Encoder for ML Compression
- Title(参考訳): ML圧縮用シングルステージハフマンエンコーダ
- Authors: Aditya Agrawal, Albert Magyar, Hiteshwar Eswaraiah, Patrick Sheridan, Pradeep Janedula, Ravi Krishnan Venkatesan, Krishna Nair, Ravi Iyer,
- Abstract要約: ハフマン符号を用いたロスレス圧縮は、この問題を軽減する効果的な方法であるが、3段階の設計では、オンザフライ周波数解析、コードブック生成、データとともにコードブックの送信が必要となる。
本稿では,従来のデータバッチの平均確率分布から導出した固定符号ブックを用いて,これらのオーバーヘッドを解消する単一ステージHuffmanエンコーダを提案する。
- 参考スコア(独自算出の注目度): 1.130449256256879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training and serving Large Language Models (LLMs) require partitioning data across multiple accelerators, where collective operations are frequently bottlenecked by network bandwidth. Lossless compression using Huffman codes is an effective way to alleviate the issue, however, its three-stage design requiring on-the-fly frequency analysis, codebook generation and transmission of codebook along with data introduces computational, latency and data overheads which are prohibitive for latency-sensitive scenarios such as die-to-die communication. This paper proposes a single-stage Huffman encoder that eliminates these overheads by using fixed codebooks derived from the average probability distribution of previous data batches. Through our analysis of the Gemma 2B model, we demonstrate that tensors exhibit high statistical similarity across layers and shards. Using this approach we achieve compression within 0.5% of per-shard Huffman coding and within 1% of the ideal Shannon compressibility, enabling efficient on-the-fly compression.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練と提供には、複数のアクセラレーター間でデータを分割する必要がある。
ハフマン符号を用いたロスレス圧縮は、この問題を軽減する効果的な方法であるが、その3段階の設計では、オンザフライ周波数解析、コードブック生成、コードブックの送信とデータとともに、ダイ・ツー・ディー通信のような遅延に敏感なシナリオでは不可能な計算、レイテンシ、データのオーバーヘッドが導入されている。
本稿では,従来のデータバッチの平均確率分布から導出した固定符号ブックを用いて,これらのオーバーヘッドを解消する単一ステージHuffmanエンコーダを提案する。
Gemma 2Bモデルの解析を通して、テンソルは層とシャードの間で高い統計的類似性を示すことを示した。
このアプローチを用いることで、シャード毎のハフマン符号の0.5%、理想的なシャノン圧縮率の1%以内の圧縮を実現し、効率的なオンザフライ圧縮を実現する。
関連論文リスト
- Test-Time Steering for Lossless Text Compression via Weighted Product of Experts [27.679089540901007]
We propose a novel framework that performing Test-Time Steering through a Weighted Product of Experts (wPoE)。
提案手法は, 予測において, 普遍圧縮モデルと事前学習されたニューラルネットワークモデルとを適応的に組み合わせ, 圧縮速度が最良個々人のモデルと同程度であることを保証する。
自動回帰言語モデルとシームレスに統合され、多様なデータ分散をまたいだテキスト圧縮を強化するための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-11-04T16:37:56Z) - Lossless Compression for LLM Tensor Incremental Snapshots [0.0]
私たちはLanguage Model(LMC)と呼ばれる効果的な圧縮ソリューションを構築します。
LMCの16コア並列実装は、それぞれ2.78 GiB/sと3.76 GiB/sの圧縮および減圧スループットを実現することができる。
このパフォーマンスの向上は、最終的に必要なリソースを削減し、次のエポック前にデータをストレージシステムにコピーする時間を増やすことで、より高い周波数のチェックポイントを可能にします。
論文 参考訳(メタデータ) (2025-05-14T21:24:14Z) - Fast Feedforward 3D Gaussian Splatting Compression [55.149325473447384]
3D Gaussian Splatting (FCGS) は、1つのフィードフォワードパスで3DGS表現を高速に圧縮できる最適化フリーモデルである。
FCGSは圧縮比を20倍以上に向上し、高精細度を維持しながら、ほとんどのシーン毎のSOTA最適化手法を上回ります。
論文 参考訳(メタデータ) (2024-10-10T15:13:08Z) - An Independence-promoting Loss for Music Generation with Language Models [64.95095558672996]
音楽生成方式は音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。
本稿では,音楽生成のための言語モデルにおけるトークン化器として使用されるオートエンコーダを正規化するために,独立性向上の損失を導入する。
論文 参考訳(メタデータ) (2024-06-04T13:44:39Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - Data-Aware Gradient Compression for FL in Communication-Constrained Mobile Computing [20.70238092277094]
モバイル環境におけるフェデレートラーニング(FL)は、重要なコミュニケーションボトルネックに直面している。
ワンサイズ・フィット・オール圧縮アプローチは、ワーカ間でのさまざまなデータボリュームを考慮に入れない。
本研究では,データ分布とボリュームが異なる作業者に対して,様々な圧縮比を提案する。
論文 参考訳(メタデータ) (2023-11-13T13:24:09Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z) - Efficient Data Compression for 3D Sparse TPC via Bicephalous
Convolutional Autoencoder [8.759778406741276]
この研究は、textitBicephalous Convolutional AutoEncoder (BCAE)と呼ばれる、空間と回帰を同時に解決するデュアルヘッドオートエンコーダを導入している。
これはMGARD、SZ、ZFPといった従来のデータ圧縮手法と比較して圧縮忠実度と比の両方の利点を示している。
論文 参考訳(メタデータ) (2021-11-09T21:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。