Fugu-MT 論文翻訳(概要): LibreLog: Accurate and Efficient Unsupervised Log Parsing Using Open-Source Large Language Models

論文の概要: LibreLog: Accurate and Efficient Unsupervised Log Parsing Using Open-Source Large Language Models

arxiv url: http://arxiv.org/abs/2408.01585v3
Date: Mon, 18 Nov 2024 05:18:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.646811
Title: LibreLog: Accurate and Efficient Unsupervised Log Parsing Using Open-Source Large Language Models
Title（参考訳）: LibreLog: オープンソースの大規模言語モデルを用いた高精度で効率的な教師なしログ解析
Authors: Zeyang Ma, Dong Jae Kim, Tse-Hsun Chen,
Abstract要約: 本稿では,非教師なしのログ解析手法であるLibreLogを紹介する。 LogHub-2.0の評価では、LibreLogは最先端のLCMに比べて25%高い解析精度とプロセス2.7倍の高速化を実現している。
参考スコア（独自算出の注目度）: 3.7960472831772774
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Log parsing is a critical step that transforms unstructured log data into structured formats, facilitating subsequent log-based analysis. Traditional syntax-based log parsers are efficient and effective, but they often experience decreased accuracy when processing logs that deviate from the predefined rules. Recently, large language models (LLM) based log parsers have shown superior parsing accuracy. However, existing LLM-based parsers face three main challenges: 1)time-consuming and labor-intensive manual labeling for fine-tuning or in-context learning, 2)increased parsing costs due to the vast volume of log data and limited context size of LLMs, and 3)privacy risks from using commercial models like ChatGPT with sensitive log information. To overcome these limitations, this paper introduces LibreLog, an unsupervised log parsing approach that leverages open-source LLMs (i.e., Llama3-8B) to enhance privacy and reduce operational costs while achieving state-of-the-art parsing accuracy. LibreLog first groups logs with similar static text but varying dynamic variables using a fixed-depth grouping tree. It then parses logs within these groups using three components: i)similarity scoring-based retrieval augmented generation: selects diverse logs within each group based on Jaccard similarity, helping the LLM distinguish between static text and dynamic variables; ii)self-reflection: iteratively query LLMs to refine log templates to improve parsing accuracy; and iii) log template memory: stores parsed templates to reduce LLM queries for improved parsing efficiency. Our evaluation on LogHub-2.0 shows that LibreLog achieves 25% higher parsing accuracy and processes logs 2.7 times faster compared to state-of-the-art LLM-based parsers. In short, LibreLog addresses privacy and cost concerns of using commercial LLMs while achieving state-of-the-arts parsing efficiency and accuracy.
Abstract（参考訳）: ログ解析は、非構造化ログデータを構造化フォーマットに変換する重要なステップであり、その後のログベースの分析を容易にする。従来の構文ベースのログパーサは効率的で効果的だが、事前に定義されたルールから外れたログを処理すると、精度が低下することが多い。近年,大規模言語モデル (LLM) に基づくログ解析では,解析精度が向上している。しかし、既存のLCMベースのパーサは、1)微調整やインコンテキスト学習のための時間的および労働集約的なマニュアルラベリング、2)大量のログデータとLLMのコンテキストサイズ制限による解析コストの増加、3)機密ログ情報を備えたChatGPTのような商用モデルの使用によるプライバシリスクの3つの課題に直面している。この制限を克服するために,オープンソースのLLM(Llama3-8B)を活用して,最先端の解析精度を達成しつつ,プライバシの向上と運用コストの低減を図る,教師なしログ解析手法であるLibreLogを導入する。 LibreLogは、同じ静的テキストでログするが、固定深さのグルーピングツリーを使用して動的変数が変化する。次に、これらのグループ内のログを3つのコンポーネントを使って解析する。 i)類似度スコアリングに基づく検索強化生成:Jaccardの類似性に基づいて各グループ内の多様なログを選択し、LCMが静的テキストと動的変数を区別するのに役立つ。二自己回帰解析精度を向上させるため、ログテンプレートを洗練するためにLCMを反復的にクエリすること。三ログテンプレートメモリ: 解析効率を向上させるため、LLMクエリを減らすために解析テンプレートを格納する。 LogHub-2.0の評価では、LibreLogは解析精度が25%向上し、2.7倍の高速化を実現している。簡単に言うと、LibreLogは商用LLMを使用することによるプライバシーとコストの懸念に対処しつつ、最先端の解析効率と正確性を実現している。

関連論文リスト

Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文参考訳（メタデータ） (2024-10-11T03:52:17Z)
HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文参考訳（メタデータ） (2024-08-15T17:54:31Z)
LUNAR: Unsupervised LLM-based Log Parsing [34.344687402936835]
LUNARは,効率的かつ市販のログ解析のための教師なし手法である。我々の重要な洞察は、LSMは直接ログ解析に苦労するかもしれないが、それらの性能は比較分析によって大幅に向上できるということである。大規模な公開データセットの実験は、LUNARが精度と効率の点で最先端のログクラフトを著しく上回っていることを示している。
論文参考訳（メタデータ） (2024-06-11T11:32:01Z)
Stronger, Cheaper and Demonstration-Free Log Parsing with LLMs [18.240096266464544]
トレーニングプロセスやラベル付きデータを必要としない,費用対効果の高いLCMベースのログであるLogBatcherを提案する。我々は16の公開ログデータセットの実験を行い、ログ解析にLogBatcherが有効であることを示した。
論文参考訳（メタデータ） (2024-06-10T10:39:28Z)
Log Parsing with Self-Generated In-Context Learning and Self-Correction [15.93927602769091]
さまざまなログ解析手法が提案されているが、人為的なルールや限られたトレーニングデータによる学習ベースモデルに依存しているため、ログデータの進化に対する彼らのパフォーマンスは満足できないままである。本稿では,自己生成型インコンテキスト学習(SG-ICL)と自己補正を併用したLLMを用いた効果的かつ適応的なログ解析フレームワークであるAdaを提案する。
論文参考訳（メタデータ） (2024-06-05T15:31:43Z)
Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。 Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文参考訳（メタデータ） (2024-03-17T13:01:03Z)
Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
LILAC: Log Parsing using LLMs with Adaptive Parsing Cache [38.04960745458878]
適応型解析キャッシュを備えた大規模言語モデル (LLM) を用いた最初の実用的なログ解析フレームワーク LILAC を提案する。 LLMの特殊なログ解析能力の欠如は、現在解析の正確さを妨げている。 LILACは,テンプレートの精度の平均F1スコアにおいて,最先端の手法よりも69.5%優れていた。
論文参考訳（メタデータ） (2023-10-03T04:46:59Z)
MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。 WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文参考訳（メタデータ） (2022-12-16T17:36:23Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。