論文の概要: Plug it and Play on Logs: A Configuration-Free Statistic-Based Log Parser
- arxiv url: http://arxiv.org/abs/2508.09366v1
- Date: Tue, 12 Aug 2025 21:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.700311
- Title: Plug it and Play on Logs: A Configuration-Free Statistic-Based Log Parser
- Title(参考訳): Plug it and Play on Logs: 設定不要な統計ベースのログパーザ
- Authors: Qiaolin Qin, Xingfang Wu, Heng Li, Ettore Merlo,
- Abstract要約: ログ解析はログ解析において必須のタスクであり、それを実現するために多くのツールが設計されている。
セマンティックベースと比べ、既存の統計ベースはより効率的で、計算コストが低く、オンプレミスのデプロイによってプライバシーが保護される傾向にある。
統計ベースは意味ベースほど効果的ではないという共通の信念となった。
我々の研究は、新しい統計に基づくPIPLUPによってこの信念に挑戦する。
- 参考スコア(独自算出の注目度): 2.342181121922312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Log parsing is an essential task in log analysis, and many tools have been designed to accomplish it. Existing log parsers can be categorized into statistic-based and semantic-based approaches. In comparison to semantic-based parsers, existing statistic-based parsers tend to be more efficient, require lower computational costs, and be more privacy-preserving thanks to on-premise deployment, but often fall short in their accuracy (e.g., grouping or parsing accuracy) and generalizability. Therefore, it became a common belief that statistic-based parsers cannot be as effective as semantic-based parsers since the latter could take advantage of external knowledge supported by pretrained language models. Our work, however, challenges this belief with a novel statistic-based parser, PIPLUP. PIPLUP eliminates the pre-assumption of the position of constant tokens for log grouping and relies on data-insensitive parameters to overcome the generalizability challenge, allowing "plug and play" on given log files. According to our experiments on an open-sourced large log dataset, PIPLUP shows promising accuracy and generalizability with the data-insensitive default parameter set. PIPLUP not only outperforms the state-of-the-art statistic-based log parsers, Drain and its variants, but also obtains a competitive performance compared to the best unsupervised semantic-based log parser (i.e., LUNAR). Further, PIPLUP exhibits low time consumption without GPU acceleration and external API usage; our simple, efficient, and effective approach makes it more practical in real-world adoptions, especially when costs and privacy are of major concerns.
- Abstract(参考訳): ログ解析はログ解析において必須のタスクであり、それを実現するために多くのツールが設計されている。
既存のログパーサは統計ベースのアプローチとセマンティックベースのアプローチに分類することができる。
セマンティックベースのパーサーと比較して、既存の統計ベースのパーサーはより効率的で、計算コストが低く、オンプレミスのデプロイメントのおかげでプライバシーが保護される傾向にあるが、その正確さ(例えば、グループ化やパーシングの正確さ)と一般化性に欠けることが多い。
したがって、統計に基づくパーサーは、事前訓練された言語モデルによってサポートされている外部知識を活用できるため、意味に基づくパーサーほど効果的ではないという一般的な信念となった。
しかし、我々の研究は、新しい統計ベースのパーサーPIPLUPによって、この信念に異議を唱えている。
PIPLUPは、ロググループ化のための定数トークンの位置の事前推定を排除し、データに敏感なパラメータを使って、ログファイルの「プラグアンドプレイ」を可能にする。
オープンソースの大規模ログデータセットの実験によると、PIPLUPはデータ非依存のデフォルトパラメータセットで有望な精度と一般化性を示す。
PIPLUPは最先端の統計ベースのログパーサーであるDrainとその変種よりも優れており、最高の教師なしセマンティックベースのログパーサー(LUNAR)に比べて競争力がある。
さらに、PIPLUPはGPUアクセラレーションや外部API使用のない低時間の消費を示す。当社のシンプルで効率的で効果的なアプローチは、特にコストとプライバシが大きな懸念事項である現実的な採用において、より実用的なものになります。
関連論文リスト
- Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。
本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。
本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文 参考訳(メタデータ) (2025-05-20T14:14:38Z) - Preprocessing is All You Need: Boosting the Performance of Log Parsers With a General Preprocessing Framework [2.342181121922312]
先行研究では、多くの統計ベースのログ(例えば、Drain)が提案されており、非常に効率的である。
本研究は,本研究の成果を反映した汎用前処理フレームワークを開発し,既存の構文解析への影響を評価した。
実験の結果,前処理フレームワークは4つの最先端統計モデルの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-12-06T18:39:34Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - LUNAR: Unsupervised LLM-based Log Parsing [34.344687402936835]
LUNARは,効率的かつ市販のログ解析のための教師なし手法である。
我々の重要な洞察は、LSMは直接ログ解析に苦労するかもしれないが、それらの性能は比較分析によって大幅に向上できるということである。
大規模な公開データセットの実験は、LUNARが精度と効率の点で最先端のログクラフトを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-11T11:32:01Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - ECLIPSE: Semantic Entropy-LCS for Cross-Lingual Industrial Log Parsing [30.093766305800568]
セマンティックエントロピー-LCSを用いたクロスリンガル産業ログ解析のESLIPSEを提案する。
2つの効率的なデータ駆動テンプレートマッチングアルゴリズムとFaissインデクシングを統合している。
特筆すべきは、産業シナリオにおけるパフォーマンスの主流を評価するために、中国語と英語のクロスプラットフォーム産業ログ解析ベンチマーク ECLIPSE-BENCH をローンチしたことである。
論文 参考訳(メタデータ) (2024-05-22T11:33:29Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。