論文の概要: Lossless Compression of Large Language Model-Generated Text via Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2505.06297v1
- Date: Wed, 07 May 2025 17:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.758223
- Title: Lossless Compression of Large Language Model-Generated Text via Next-Token Prediction
- Title(参考訳): 次世代予測による大言語モデル生成テキストの無意味圧縮
- Authors: Yu Mao, Holger Pirk, Chun Jason Xue,
- Abstract要約: 大規模言語モデル(LLM)は、ドメインにまたがってデプロイされ、利用され続けている。
LLM生成データの圧縮は、従来の人間や機械生成のコンテンツと比較して、独特な課題を示す。
また,LLMに基づく予測手法は,Gzipで達成した3倍の圧縮速度をはるかに上回る20倍の圧縮速度を達成することを示す。
- 参考スコア(独自算出の注目度): 9.302754209202607
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language models (LLMs) continue to be deployed and utilized across domains, the volume of LLM-generated data is growing rapidly. This trend highlights the increasing importance of effective and lossless compression for such data in modern text management systems. However, compressing LLM-generated data presents unique challenges compared to traditional human- or machine-generated content. Traditional machine-generated data is typically derived from computational processes or device outputs, often highly structured and limited to low-level elements like labels or numerical values. This structure enables conventional lossless compressors to perform efficiently. In contrast, LLM-generated data is more complex and diverse, requiring new approaches for effective compression. In this work, we conduct the first systematic investigation of lossless compression techniques tailored specifically to LLM-generated data. Notably, because LLMs are trained via next-token prediction, we find that LLM-generated data is highly predictable for the models themselves. This predictability enables LLMs to serve as efficient compressors of their own outputs. Through extensive experiments with 14 representative LLMs and 8 LLM-generated datasets from diverse domains, we show that LLM-based prediction methods achieve remarkable compression rates, exceeding 20x, far surpassing the 3x rate achieved by Gzip, a widely used general-purpose compressor. Furthermore, this advantage holds across different LLM sizes and dataset types, demonstrating the robustness and practicality of LLM-based methods in lossless text compression under generative AI workloads.
- Abstract(参考訳): 大規模言語モデル(LLMs)がドメインにまたがってデプロイおよび利用され続けているため、LLM生成データのボリュームは急速に増大している。
この傾向は、現代のテキスト管理システムにおいて、そのようなデータに対する有効かつ損失のない圧縮の重要性が増していることを浮き彫りにしている。
しかし、LLM生成データを圧縮することは、従来の人間や機械生成のコンテンツと比較すると、独特な課題である。
伝統的な機械生成データは典型的には計算過程や装置出力から派生し、しばしば高度に構造化され、ラベルや数値のような低レベルの要素に制限される。
この構造により、従来の無損失圧縮機を効率的に動作させることができる。
対照的に、LLMの生成したデータはより複雑で多様なものであり、効率的な圧縮のために新しいアプローチが必要である。
本研究では, LLM生成データに特化された無損失圧縮技術について, 初めて体系的に検討する。
特に,LLMは次点の予測によって訓練されるため,LLM生成したデータはモデル自身に対して高い予測が可能であることが判明した。
この予測可能性により、LSMは自身の出力の効率的な圧縮機として機能する。
汎用圧縮機であるGzip が達成した3倍の圧縮速度をはるかに超え, LLM に基づく予測手法は, 14 個の代表的な LLM と 8 個の LLM 生成データセットを用いた広範囲な実験により, 20倍の圧縮速度を達成することを示す。
さらに、この利点は異なるLLMサイズとデータセットタイプにまたがって、ジェネレーティブなAIワークロード下でのロスレステキスト圧縮におけるLLMベースのメソッドの堅牢性と実用性を示す。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Breaking the Length Barrier: LLM-Enhanced CTR Prediction in Long Textual User Behaviors [25.086118164540974]
大型言語モデル(LLM)はクリックスルー率(CTR)予測の性能を向上させるために用いられる。
ユーザシーケンスが長くなるにつれて、LLMの現在の効率は数十億のユーザやアイテムのトレーニングに不十分である。
我々は,LLMに基づくCTRモデリングの効率を高めるために,行動集約階層(BAHE)を提案する。
論文 参考訳(メタデータ) (2024-03-28T12:05:15Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。