論文の概要: LogFold: Compressing Logs with Structured Tokens and Hybrid Encoding
- arxiv url: http://arxiv.org/abs/2603.20618v1
- Date: Sat, 21 Mar 2026 03:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.997696
- Title: LogFold: Compressing Logs with Structured Tokens and Hybrid Encoding
- Title(参考訳): LogFold: 構造化トークンとハイブリッドエンコーディングによるログ圧縮
- Authors: Shiwen Shan, Yintong Huo, Hongzhan Zhong, Zhining Wang, Yuxin Su, Zibin Zheng,
- Abstract要約: 4つのコンポーネントからなる新しいログ圧縮手法であるLogFoldを紹介する。
トークンアナライザはトークンを構造化、非構造化、静的タイプに分類し、プロセッサはスケルトンに基づいて構造化トークン内の繰り返しパターンをマイニングする。
16の公開ログデータセットの実験では、LogFoldは最先端のベースラインを超え、平均圧縮比を11.11%改善し、圧縮速度は9.842MB/sである。
- 参考スコア(独自算出の注目度): 36.603581308724465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logs are essential for diagnosing failures and conducting retrospective studies, leading many software organizations to retain log messages for a long time. Nevertheless, the volume of generated log data grows rapidly as software systems grow, necessitating an effective compression method. Apart from general-purpose compressors (e.g., Gzip, Bzip2), many recent studies developed log-specific compression algorithms, but they offer suboptimal performance because of (1) overlooking redundancies within certain complex tokens, and (2) lacking a fine-grained encoding strategy for diverse token types. This work uncovers a new redundancy pattern in structured tokens and proposes a new type-aware encoding strategy to improve log compression. Building on this insight, we introduce LogFold, a novel log compression method consisting of four components: a token analyzer to classifies tokens as structured, unstructured, or static types; a processor that mines recurring patterns within structured tokens based on their delimiter skeletons; a hybrid encoder that tailors data representation according to token types; and a packer that compresses the output into an archive file. Extensive experiments on 16 public log datasets demonstrate that LogFold surpasses state-of-the-art baselines, achieving average compression ratio improvements by 11.11%, with a compression speed of 9.842 MB/s. Ablation studies further indicate the importance of each component. We also conduct sensitivity analyses to verify LogFold's robustness and stability across various internal settings.
- Abstract(参考訳): ログは失敗を診断し、ふりかえりの研究を行うために不可欠である。
それでも、生成したログデータの量は、ソフトウェアシステムが成長するにつれて急速に増加し、効果的な圧縮方法を必要とする。
汎用圧縮機(例えば、Gzip、Bzip2)とは別に、近年の多くの研究でログ固有の圧縮アルゴリズムが開発されたが、(1)複雑なトークン内の冗長性を見落とし、(2)多様なトークンタイプに対する微細な符号化戦略が欠如していることから、最適以下の性能を提供する。
この研究は構造化トークンの新しい冗長パターンを明らかにし、ログ圧縮を改善するための新しい型認識符号化戦略を提案する。
この知見に基づいて,トークンを構造化,非構造化,静的なタイプに分類するトークンアナライザ,デリミタスケルトンに基づいた構造化トークン内の繰り返しパターンをマイニングするプロセッサ,トークンタイプに応じたデータ表現を調整するハイブリッドエンコーダ,アーカイブファイルに出力を圧縮するパッカーの4つのコンポーネントからなる新しいログ圧縮手法であるLogFoldを紹介した。
16の公開ログデータセットに対する大規模な実験により、LogFoldは最先端のベースラインを超え、平均圧縮比を11.11%改善し、圧縮速度は9.842MB/sである。
アブレーション研究は、各成分の重要性をさらに示している。
我々はまた、LogFoldの堅牢性と安定性を様々な内部設定で検証するために感度分析を行う。
関連論文リスト
- Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - LogPrism: Unifying Structure and Variable Encoding for Effective Log Compression [41.26407915252864]
parse-then-compress"パラダイムは、ログ解析と圧縮を独立した目的として扱うことにより、効率を制限します。
統一冗長エンコーディングによりギャップを埋めるフレームワークであるLogPrismを提案する。
16のベンチマークデータセットの実験では、LogPrismが新たな最先端を確立していることが確認されている。
論文 参考訳(メタデータ) (2026-01-24T15:12:31Z) - DeLog: An Efficient Log Compression Framework with Pattern Signature Synthesis [30.690382753027137]
新規なログ圧縮機はパターン署名合成機構を実装し,効率的なパターンベースグルーピングを実現する。
16のパブリックデータセットと10のプロダクションデータセットで、DeLogは最先端の圧縮比とスピードを達成する。
論文 参考訳(メタデータ) (2026-01-21T15:26:09Z) - Transformers from Compressed Representations [74.48571451824569]
TEMPEST (TransformErs froM comPressed rEpreSenTations) は、圧縮されたファイルのバイトストリーム構造を利用して効果的なトークン化と符号化戦略を設計する手法である。
本提案では,意味分類に必要なトークン数を大幅に削減し,計算複雑性とメモリ使用量の両方を削減する。
論文 参考訳(メタデータ) (2025-10-26T13:48:03Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - Unlocking the Power of Numbers: Log Compression via Numeric Token Parsing [18.419996813182163]
圧縮率と速度が高い単純な汎用ログ圧縮機であるDenumを提案する。
具体的には、DenumにはToken Parsingモジュールが含まれており、すべての数値トークンを抽出し、カスタマイズされた処理方法を適用する。
16のログデータセットで評価され、平均圧縮比が8.7%、平均圧縮速度が2.6倍速くなる。
論文 参考訳(メタデータ) (2024-08-11T12:30:41Z) - LogShrink: Effective Log Compression by Leveraging Commonality and
Variability of Log Data [35.5712445690333]
本稿では,ログデータの共通性と可変性を生かした,新規かつ効果的なログ圧縮手法であるLogShrinkを提案する。
ログメッセージにおける潜時的な共通性と変動性を特定するために, 最長のコモンシーケンスとエントロピーに基づく解析器を提案する。
この背景にある重要な考え方は、共通性と可変性を利用して、より短い表現でログデータを縮小できるということだ。
論文 参考訳(メタデータ) (2023-09-18T04:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。