論文の概要: LibreLog: Accurate and Efficient Unsupervised Log Parsing Using Open-Source Large Language Models
- arxiv url: http://arxiv.org/abs/2408.01585v3
- Date: Mon, 18 Nov 2024 05:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:19.064474
- Title: LibreLog: Accurate and Efficient Unsupervised Log Parsing Using Open-Source Large Language Models
- Title(参考訳): LibreLog: オープンソースの大規模言語モデルを用いた高精度で効率的な教師なしログ解析
- Authors: Zeyang Ma, Dong Jae Kim, Tse-Hsun Chen,
- Abstract要約: 本稿では,非教師なしのログ解析手法であるLibreLogを紹介する。
LogHub-2.0の評価では、LibreLogは最先端のLCMに比べて25%高い解析精度とプロセス2.7倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 3.7960472831772774
- License:
- Abstract: Log parsing is a critical step that transforms unstructured log data into structured formats, facilitating subsequent log-based analysis. Traditional syntax-based log parsers are efficient and effective, but they often experience decreased accuracy when processing logs that deviate from the predefined rules. Recently, large language models (LLM) based log parsers have shown superior parsing accuracy. However, existing LLM-based parsers face three main challenges: 1)time-consuming and labor-intensive manual labeling for fine-tuning or in-context learning, 2)increased parsing costs due to the vast volume of log data and limited context size of LLMs, and 3)privacy risks from using commercial models like ChatGPT with sensitive log information. To overcome these limitations, this paper introduces LibreLog, an unsupervised log parsing approach that leverages open-source LLMs (i.e., Llama3-8B) to enhance privacy and reduce operational costs while achieving state-of-the-art parsing accuracy. LibreLog first groups logs with similar static text but varying dynamic variables using a fixed-depth grouping tree. It then parses logs within these groups using three components: i)similarity scoring-based retrieval augmented generation: selects diverse logs within each group based on Jaccard similarity, helping the LLM distinguish between static text and dynamic variables; ii)self-reflection: iteratively query LLMs to refine log templates to improve parsing accuracy; and iii) log template memory: stores parsed templates to reduce LLM queries for improved parsing efficiency. Our evaluation on LogHub-2.0 shows that LibreLog achieves 25% higher parsing accuracy and processes logs 2.7 times faster compared to state-of-the-art LLM-based parsers. In short, LibreLog addresses privacy and cost concerns of using commercial LLMs while achieving state-of-the-arts parsing efficiency and accuracy.
- Abstract(参考訳): ログ解析は、非構造化ログデータを構造化フォーマットに変換する重要なステップであり、その後のログベースの分析を容易にする。
従来の構文ベースのログパーサは効率的で効果的だが、事前に定義されたルールから外れたログを処理すると、精度が低下することが多い。
近年,大規模言語モデル (LLM) に基づくログ解析では,解析精度が向上している。
しかし、既存のLCMベースのパーサは、1)微調整やインコンテキスト学習のための時間的および労働集約的なマニュアルラベリング、2)大量のログデータとLLMのコンテキストサイズ制限による解析コストの増加、3)機密ログ情報を備えたChatGPTのような商用モデルの使用によるプライバシリスクの3つの課題に直面している。
この制限を克服するために,オープンソースのLLM(Llama3-8B)を活用して,最先端の解析精度を達成しつつ,プライバシの向上と運用コストの低減を図る,教師なしログ解析手法であるLibreLogを導入する。
LibreLogは、同じ静的テキストでログするが、固定深さのグルーピングツリーを使用して動的変数が変化する。
次に、これらのグループ内のログを3つのコンポーネントを使って解析する。
i)類似度スコアリングに基づく検索強化生成:Jaccardの類似性に基づいて各グループ内の多様なログを選択し、LCMが静的テキストと動的変数を区別するのに役立つ。
二 自己回帰 解析精度を向上させるため、ログテンプレートを洗練するためにLCMを反復的にクエリすること。
三 ログテンプレートメモリ: 解析効率を向上させるため、LLMクエリを減らすために解析テンプレートを格納する。
LogHub-2.0の評価では、LibreLogは解析精度が25%向上し、2.7倍の高速化を実現している。
簡単に言うと、LibreLogは商用LLMを使用することによるプライバシーとコストの懸念に対処しつつ、最先端の解析効率と正確性を実現している。
関連論文リスト
- Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - Stronger, Cheaper and Demonstration-Free Log Parsing with LLMs [18.240096266464544]
トレーニングプロセスやラベル付きデータを必要としない,費用対効果の高いLCMベースのログであるLogBatcherを提案する。
我々は16の公開ログデータセットの実験を行い、ログ解析にLogBatcherが有効であることを示した。
論文 参考訳(メタデータ) (2024-06-10T10:39:28Z) - Log Parsing with Self-Generated In-Context Learning and Self-Correction [15.93927602769091]
さまざまなログ解析手法が提案されているが、人為的なルールや限られたトレーニングデータによる学習ベースモデルに依存しているため、ログデータの進化に対する彼らのパフォーマンスは満足できないままである。
本稿では,自己生成型インコンテキスト学習(SG-ICL)と自己補正を併用したLLMを用いた効果的かつ適応的なログ解析フレームワークであるAdaを提案する。
論文 参考訳(メタデータ) (2024-06-05T15:31:43Z) - LLMParser: An Exploratory Study on Using Large Language Models for Log Parsing [8.647406441990396]
ログ解析にLarge Language Models (LLMs) を用いることの可能性を検討した。
例えば、Flan-T5-baseはLLaMA-7Bに匹敵する結果を短時間で達成する。
また,他のシステムからのログを用いて事前学習したLLMを用いることで,解析精度が向上するとは限らない。
論文 参考訳(メタデータ) (2024-04-27T20:34:29Z) - Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。
Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文 参考訳(メタデータ) (2024-03-17T13:01:03Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - LILAC: Log Parsing using LLMs with Adaptive Parsing Cache [38.04960745458878]
適応型解析キャッシュを備えた大規模言語モデル (LLM) を用いた最初の実用的なログ解析フレームワーク LILAC を提案する。
LLMの特殊なログ解析能力の欠如は、現在解析の正確さを妨げている。
LILACは,テンプレートの精度の平均F1スコアにおいて,最先端の手法よりも69.5%優れていた。
論文 参考訳(メタデータ) (2023-10-03T04:46:59Z) - Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。
本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。
本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文 参考訳(メタデータ) (2023-08-17T14:19:22Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。