論文の概要: DeLog: An Efficient Log Compression Framework with Pattern Signature Synthesis
- arxiv url: http://arxiv.org/abs/2601.15084v2
- Date: Thu, 22 Jan 2026 11:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 13:30:18.583386
- Title: DeLog: An Efficient Log Compression Framework with Pattern Signature Synthesis
- Title(参考訳): DeLog: パターン署名合成による効率的なログ圧縮フレームワーク
- Authors: Siyu Yu, Yifan Wu, Junjielong Xu, Ying Fu, Ning Wang, Maoyin Liu, Pancheng Jiang, Xiang Zhang, Tong Jia, Pinjia He, Ying Li,
- Abstract要約: 新規なログ圧縮機はパターン署名合成機構を実装し,効率的なパターンベースグルーピングを実現する。
16のパブリックデータセットと10のプロダクションデータセットで、DeLogは最先端の圧縮比とスピードを達成する。
- 参考スコア(独自算出の注目度): 30.690382753027137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parser-based log compression, which separates static templates from dynamic variables, is a promising approach to exploit the unique structure of log data. However, its performance on complex production logs is often unsatisfactory. This performance gap coincides with a known degradation in the accuracy of its core log parsing component on such data, motivating our investigation into a foundational yet unverified question: does higher parsing accuracy necessarily lead to better compression ratio? To answer this, we conduct the first empirical study quantifying this relationship and find that a higher parsing accuracy does not guarantee a better compression ratio. Instead, our findings reveal that compression ratio is dictated by achieving effective pattern-based grouping and encoding, i.e., the partitioning of tokens into low entropy, highly compressible groups. Guided by this insight, we design DeLog, a novel log compressor that implements a Pattern Signature Synthesis mechanism to achieve efficient pattern-based grouping. On 16 public and 10 production datasets, DeLog achieves state-of-the-art compression ratio and speed.
- Abstract(参考訳): 静的テンプレートを動的変数から分離するパーサベースのログ圧縮は、ログデータのユニークな構造を利用するための有望なアプローチである。
しかし、複雑なプロダクションログのパフォーマンスは、しばしば満足できない。
このパフォーマンスギャップは、コアログ解析コンポーネントのそのようなデータに対する精度の低下を既知のものと一致し、基礎的だが検証されていない質問に対する調査を動機付けます。
これに対応するために、我々はこの関係を定量化する最初の実証的研究を行い、より高い解析精度がより良い圧縮比を保証していないことを発見した。
そこで本研究では,トークンを低エントロピー,高圧縮性グループに分割し,効果的なパターンに基づくグループ化と符号化を行うことにより,圧縮比が決定されることを示した。
この知見に導かれて,パターン署名合成機構を実装した新しいログ圧縮機であるDeLogを設計し,効率的なパターンベースグルーピングを実現する。
16のパブリックデータセットと10のプロダクションデータセットで、DeLogは最先端の圧縮比とスピードを達成する。
関連論文リスト
- Optimized Log Parsing with Syntactic Modifications [2.2917707112773593]
構文と意味に基づくログ解析アーキテクチャを比較した。
本稿では,2フェーズのログ解析アーキテクチャにおいて,第2フェーズとして機能するテンプレート識別モジュールであるSynLog+を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:59:22Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods [54.4711434793961]
単純な画像ダウンサンプリングは、複数の広く使用されているベンチマークにおいて、多くの高度な圧縮方法より一貫して優れていることを示す。
これらの結果に触発され,既存のベンチマークを識別するデータフィルタリング機構を組み込んだ評価フレームワークであるVTC-Benchを導入する。
論文 参考訳(メタデータ) (2025-10-08T15:44:28Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - Plug it and Play on Logs: A Configuration-Free Statistic-Based Log Parser [2.342181121922312]
ログ解析はログ解析において必須のタスクであり、それを実現するために多くのツールが設計されている。
セマンティックベースと比べ、既存の統計ベースはより効率的で、計算コストが低く、オンプレミスのデプロイによってプライバシーが保護される傾向にある。
統計ベースは意味ベースほど効果的ではないという共通の信念となった。
我々の研究は、新しい統計に基づくPIPLUPによってこの信念に挑戦する。
論文 参考訳(メタデータ) (2025-08-12T21:47:27Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models [21.025001473355996]
大規模言語モデル(LLM)の即時圧縮問題について定式化する。
ブラックボックスモデルのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。
本稿では,現在の高速圧縮法の性能と最適戦略との間に大きなギャップがあることを述べる。
論文 参考訳(メタデータ) (2024-07-22T09:40:13Z) - LogShrink: Effective Log Compression by Leveraging Commonality and
Variability of Log Data [35.5712445690333]
本稿では,ログデータの共通性と可変性を生かした,新規かつ効果的なログ圧縮手法であるLogShrinkを提案する。
ログメッセージにおける潜時的な共通性と変動性を特定するために, 最長のコモンシーケンスとエントロピーに基づく解析器を提案する。
この背景にある重要な考え方は、共通性と可変性を利用して、より短い表現でログデータを縮小できるということだ。
論文 参考訳(メタデータ) (2023-09-18T04:27:05Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。