論文の概要: DeepParse: Hybrid Log Parsing with LLM-Synthesized Regex Masks
- arxiv url: http://arxiv.org/abs/2604.20553v1
- Date: Wed, 22 Apr 2026 13:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.144404
- Title: DeepParse: Hybrid Log Parsing with LLM-Synthesized Regex Masks
- Title(参考訳): DeepParse: LLM合成レグレックスマスクによるハイブリッドログ解析
- Authors: Amir Shetaia, Sean Kauffman,
- Abstract要約: Drainのような機械学習ベースの一般化は高速だが、複雑な変数では精度が劣化することが多い。
本稿では、小さなログサンプルから再利用可能な変数パターンを自動的にマイニングするハイブリッドフレームワークであるDeepParseを提案する。
推論フェーズを実行から分離することで、DeepParseは正確でスケーラブルでコスト効率のよいログ構造化を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern distributed systems produce massive, heterogeneous logs essential for reliability, security, and anomaly detection. Converting these free-form messages into structured templates (log parsing) is challenging due to evolving formats and limited labeled data. Machine-learning-based parsers like Drain are fast but accuracy often degrades on complex variables, while Large Language Models (LLMs) offer better generalization but incur prohibitive inference costs. This paper presents DeepParse, a hybrid framework that automatically mines reusable variable patterns from small log samples using an LLM, then applies them deterministically through the Drain algorithm. By separating the reasoning phase from execution, DeepParse enables accurate, scalable, and cost-efficient log structuring without relying on brittle handcrafted rules or per-line neural inference. Across 16 benchmark datasets, DeepParse achieves higher accuracy in variable extraction (97.6% average Parsing Accuracy) and better consistency than both heuristic and LLM-only baselines. Integrating DeepParse into an anomaly detection pipeline reduced false alarms by over 30% and reduced inference latency by 36% compared to heuristic baselines.
- Abstract(参考訳): 現代の分散システムは、信頼性、セキュリティ、異常検出に不可欠な巨大で異質なログを生成する。
これらの自由形式のメッセージを構造化テンプレート(ログ解析)に変換することは、フォーマットの進化とラベル付きデータ制限のために困難である。
Drainのような機械学習ベースのパーサーは高速だが、精度は複雑な変数で劣化することが多い。
本稿では,LLMを用いて再利用可能な変数パターンを自動的にマイニングし,Drainアルゴリズムを用いて決定的に適用するハイブリッドフレームワークDeepParseを提案する。
推論フェーズを実行から分離することで、脆弱な手作りルールやライン毎のニューラルネットワークに頼ることなく、正確でスケーラブルでコスト効率のよいログ構造化が可能になる。
16のベンチマークデータセットで、DeepParseは変数抽出(平均パーシング精度97.6%)の精度が高く、ヒューリスティックとLLMのみのベースラインよりも一貫性が高い。
DeepParseを異常検出パイプラインに統合することで、偽アラームを30%以上削減し、ヒューリスティックなベースラインに比べて推論レイテンシを36%削減した。
関連論文リスト
- Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - LibreLog: Accurate and Efficient Unsupervised Log Parsing Using Open-Source Large Language Models [3.7960472831772774]
本稿では,非教師なしのログ解析手法であるLibreLogを紹介する。
LogHub-2.0の評価では、LibreLogは最先端のLCMに比べて25%高い解析精度とプロセス2.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-08-02T21:54:13Z) - Log Parsing using LLMs with Self-Generated In-Context Learning and Self-Correction [15.93927602769091]
近年の大規模言語モデル(LLM)の出現は、自然言語やコードを理解する上で強力な能力を示している。
Adaは、自己生成型インコンテキスト学習(SG-ICL)と自己補正を備えたLLMを用いた、効果的で適応的なログ解析フレームワークである。
Adaはゼロショットのシナリオであっても、すべてのメトリクスで最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-06-05T15:31:43Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。