論文の概要: Revisiting Data Compression with Language Modeling
- arxiv url: http://arxiv.org/abs/2601.02875v1
- Date: Tue, 06 Jan 2026 10:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.88225
- Title: Revisiting Data Compression with Language Modeling
- Title(参考訳): 言語モデリングによるデータ圧縮の再検討
- Authors: Chen-Han Tsai,
- Abstract要約: データ圧縮作業における大規模言語モデル(LLM)の有用性について検討する。
我々は、enwik9データセット上で、新しい最先端(SOTA)調整圧縮率約18%を達成する。
テキスト優位な領域におけるデータ圧縮における LLM の優位性を示す一方で,非自然なテキスト列の圧縮能力は,適切な設定を行うと競争力を維持することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this report, we investigate the potential use of large language models (LLM's) in the task of data compression. Previous works have demonstrated promising results in applying LLM's towards compressing not only text, but also a wide range of multi-modal data. Despite the favorable performance achieved, there still remains several practical questions that pose a challenge towards replacing existing data compression algorithms with LLM's. In this work, we explore different methods to achieve a lower adjusted compression rate using LLM's as data compressors. In comparison to previous works, we were able to achieve a new state-of-the-art (SOTA) adjusted compression rate of around $18\%$ on the enwik9 dataset without additional model training. Furthermore, we explore the use of LLM's in compressing non-English data, code data, byte stream sequences. We show that while LLM's excel in compressing data in text-dominant domains, their ability in compressing non-natural text sequences still remain competitive if configured in the right way.
- Abstract(参考訳): 本稿では,データ圧縮作業における大規模言語モデル(LLM)の有用性について検討する。
従来の研究は、LLMをテキストだけでなく、幅広いマルチモーダルデータへの圧縮に適用する上で有望な結果を示してきた。
良好な性能を達成したにもかかわらず、既存のデータ圧縮アルゴリズムをLLMに置き換える上での課題となるいくつかの実践的な疑問が残っている。
本研究では,LLMをデータ圧縮機として使用する低調整圧縮率を実現するための異なる手法について検討する。
従来の研究と比較して,モデルトレーニングを追加することなく,Enwik9データセットの圧縮率を約18\%に調整したSOTA(State-of-the-art)を達成できた。
さらに、非英語データ、コードデータ、バイトストリームシーケンスの圧縮におけるLLMの使用について検討する。
テキスト優位な領域におけるデータ圧縮における LLM の優位性を示す一方で,非自然なテキスト列の圧縮能力は,適切な設定を行うと競争力を維持することを示す。
関連論文リスト
- Lossless Compression of Large Language Model-Generated Text via Next-Token Prediction [9.302754209202607]
大規模言語モデル(LLM)は、ドメインにまたがってデプロイされ、利用され続けている。
LLM生成データの圧縮は、従来の人間や機械生成のコンテンツと比較して、独特な課題を示す。
また,LLMに基づく予測手法は,Gzipで達成した3倍の圧縮速度をはるかに上回る20倍の圧縮速度を達成することを示す。
論文 参考訳(メタデータ) (2025-05-07T17:42:35Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。