論文の概要: GPT-2 as a Compression Preprocessor: Improving Gzip for Structured Text Domains
- arxiv url: http://arxiv.org/abs/2508.14061v1
- Date: Sun, 10 Aug 2025 04:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.535696
- Title: GPT-2 as a Compression Preprocessor: Improving Gzip for Structured Text Domains
- Title(参考訳): 圧縮プリプロセッサとしてのGPT-2:構造化テキスト領域のGzipの改善
- Authors: Anurag Kumar Ojha,
- Abstract要約: GPT-2はドメイン固有のファイルを入力として取り込むが、gzipのようなパターンベースの圧縮機は作業が難しい。
前処理後、gzipはパイプラインの反対側で動作し、通常通りデータを圧縮する。
有望な結果と0.34パーセントの改善、HTMLファイルを5.8%改善しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the modern era, large volumes of data are being produced continuously, especially in domain-specific fields such as medical records and clinical files, defence logs and HTML-based web traffic. Data with such volume and complexity needs to be compressed before storing and transmitting efficiently. Data compression has gained significant attention from modern researchers, resulting in the development of fast and efficient compression algorithms such as Gzip. However, since gzip works on the principle of repetition of binary patterns, one of the limitations of gzip is that domain-specific formats like JSON, XML, HTML, and log files, while structured, may have semantic repetition but not syntactic repetition, which gzip finds difficult to compress. In this article, we propose a GPT-based preprocessor for such domain-specific files. We propose a pipeline made up of GPT-2 taking domain-specific files as input, which pattern-based compressors like gzip find difficult to work on. The preprocessor results are output in a file that is designed for compressors like gzip. After preprocessing, the gzip works on the other end of the pipeline and compresses the data as usual. We used different types of both real-world and synthetically generated data, such as logs and HTML files, for the experiment of the proposed model. We found promising results and an improvement of the Defence logs by 0.34 per cent and HTML files by 5.8 per cent.
- Abstract(参考訳): 現代では、特に医療記録や臨床ファイル、防衛ログ、HTMLベースのWebトラフィックなど、ドメイン固有の分野において、大量のデータが継続的に作成されている。
このようなボリュームと複雑さを持つデータは、効率的に保存および送信する前に圧縮する必要がある。
データ圧縮は現代の研究者から大きな注目を集め、Gzipのような高速で効率的な圧縮アルゴリズムの開発につながった。
しかし、gzipはバイナリパターンの反復の原理に基づいているため、gzipの制限の一つは、JSON、XML、HTML、ログファイルのようなドメイン固有のフォーマットは構造化されているが、セマンティックな繰り返しがあるかもしれないが、構文的な反復ではないため、gzipは圧縮が困難である。
本稿では、そのようなドメイン固有ファイルのためのGPTベースのプリプロセッサを提案する。
本稿では,gzipのようなパターンベースの圧縮機において,ドメイン固有のファイルを入力としてGPT-2で構成したパイプラインを提案する。
プリプロセッサの結果は、gzipのような圧縮機用に設計されたファイルに出力される。
前処理後、gzipはパイプラインの反対側で動作し、通常通りデータを圧縮する。
提案モデルの実験では,実世界のデータと,ログやHTMLファイルといった合成データの両方を,それぞれ異なるタイプで使用した。
有望な結果とディフェンスログの改善が0.34パーセント,HTMLファイルが5.8%でした。
関連論文リスト
- Differentially Private Compression and the Sensitivity of LZ77 [11.961645395911132]
我々は、人気のある"Compress-Then-Encrypt"フレームワークの安全性の欠如を動機とする、差分プライベートなデータ圧縮方式について検討する。
提案した差分圧縮-Then-Encryptフレームワークでは、圧縮されたファイルにランダムな正のパディングを加え、漏洩が厳密なプライバシー保証を満たすことを保証する。
我々の主な技術的貢献は、LZ77圧縮スキームの微粒化感度を分析することである。
論文 参考訳(メタデータ) (2025-02-13T18:42:20Z) - Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。
提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。
Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文 参考訳(メタデータ) (2024-10-17T21:35:49Z) - Generalized compression and compressive search of large datasets [0.0]
panCAKESは圧縮検索の新しいアプローチであり、圧縮されたデータに対して$k$-NNと$rho$-NN検索を実行する方法である。
PanCAKESは多様体仮説を仮定し、データの低次元構造を利用して効率よく圧縮・探索する。
ゲノミクス、プロテオミクス、データセットなど、さまざまなデータセットでpanCAKESをベンチマークします。
論文 参考訳(メタデータ) (2024-09-18T17:25:31Z) - ZipLM: Inference-Aware Structured Pruning of Language Models [56.52030193434863]
ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。
ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。
ZipLMはすべての設定で最先端の圧縮モデルを生成する。
論文 参考訳(メタデータ) (2023-02-07T18:55:28Z) - Using Convolutional Neural Networks to Detect Compression Algorithms [0.0]
ベースデータセットを使用し、さまざまなアルゴリズムですべてのファイルを圧縮し、それに基づいてモデルを設計します。
使用されるモデルは、圧縮、lzip、bzip2を使用して圧縮されたファイルを正確に識別することができた。
論文 参考訳(メタデータ) (2021-11-17T11:03:16Z) - Partition and Code: learning how to compress graphs [50.29024357495154]
まず、分割アルゴリズムがグラフを基本構造に分解し、これらを確率分布を学習する小さな辞書の要素にマッピングし、エントロピーエンコーダが表現をビットに変換する。
提案アルゴリズムは,非パラメトリックおよびパラメトリックグラフ圧縮器の異なるファミリーに対して,多種多様な実世界のネットワーク上で定量的に評価し,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-07-05T11:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。