Fugu-MT 論文翻訳(概要): LogEval: A Comprehensive Benchmark Suite for Large Language Models In Log Analysis

論文の概要: LogEval: A Comprehensive Benchmark Suite for Large Language Models In Log Analysis

arxiv url: http://arxiv.org/abs/2407.01896v1
Date: Tue, 2 Jul 2024 02:39:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 17:03:34.739777
Title: LogEval: A Comprehensive Benchmark Suite for Large Language Models In Log Analysis
Title（参考訳）: LogEval: ログ分析における大規模言語モデルのための総合ベンチマークスイート
Authors: Tianyu Cui, Shiyu Ma, Ziang Chen, Tong Xiao, Shimin Tao, Yilun Liu, Shenglin Zhang, Duoming Lin, Changchang Liu, Yuzhe Cai, Weibin Meng, Yongqian Sun, Dan Pei,
Abstract要約: ログ解析タスクにおける大規模言語モデルの性能を評価するために設計されたベンチマークスイートであるLogEvalを紹介する。このベンチマークでは、ログ解析、ログ異常検出、ログ障害診断、ログ要約などのタスクをカバーしている。 LogEvalは4000の公開ログデータエントリを使用して各タスクを評価し、各タスクに対して15の異なるプロンプトを使用して、徹底的で公正な評価を保証する。
参考スコア（独自算出の注目度）: 32.46940506638522
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Log analysis is crucial for ensuring the orderly and stable operation of information systems, particularly in the field of Artificial Intelligence for IT Operations (AIOps). Large Language Models (LLMs) have demonstrated significant potential in natural language processing tasks. In the AIOps domain, they excel in tasks such as anomaly detection, root cause analysis of faults, operations and maintenance script generation, and alert information summarization. However, the performance of current LLMs in log analysis tasks remains inadequately validated. To address this gap, we introduce LogEval, a comprehensive benchmark suite designed to evaluate the capabilities of LLMs in various log analysis tasks for the first time. This benchmark covers tasks such as log parsing, log anomaly detection, log fault diagnosis, and log summarization. LogEval evaluates each task using 4,000 publicly available log data entries and employs 15 different prompts for each task to ensure a thorough and fair assessment. By rigorously evaluating leading LLMs, we demonstrate the impact of various LLM technologies on log analysis performance, focusing on aspects such as self-consistency and few-shot contextual learning. We also discuss findings related to model quantification, Chinese-English question-answering evaluation, and prompt engineering. These findings provide insights into the strengths and weaknesses of LLMs in multilingual environments and the effectiveness of different prompt strategies. Various evaluation methods are employed for different tasks to accurately measure the performance of LLMs in log analysis, ensuring a comprehensive assessment. The insights gained from LogEvals evaluation reveal the strengths and limitations of LLMs in log analysis tasks, providing valuable guidance for researchers and practitioners.
Abstract（参考訳）: ログ分析は、特にAIOps(AIOps)の分野において、情報システムの秩序的で安定した運用を保証するために不可欠である。大規模言語モデル(LLM)は自然言語処理タスクにおいて大きな可能性を証明している。 AIOpsドメインでは、異常検出、障害の根本原因分析、運用とメンテナンススクリプト生成、アラート情報の要約といったタスクに優れています。しかし、ログ解析タスクにおける現在のLLMの性能は依然として不十分である。このギャップに対処するために,様々なログ解析タスクにおけるLLMの機能を評価するために設計された総合ベンチマークスイートであるLogEvalを紹介した。このベンチマークでは、ログ解析、ログ異常検出、ログ障害診断、ログ要約などのタスクをカバーしている。 LogEvalは4000の公開ログデータエントリを使用して各タスクを評価し、各タスクに対して15の異なるプロンプトを使用して、徹底的で公正な評価を保証する。先行するLLMを厳格に評価することにより,LLM技術がログ解析性能に与える影響を実演し,自己整合性や少数の文脈学習といった側面に注目した。また、モデル定量化、中国語-英語質問応答評価、素早い工学に関する知見についても論じる。これらの知見は多言語環境におけるLLMの強みと弱み、および異なるプロンプト戦略の有効性について考察する。ログ解析におけるLLMの性能を正確に測定し,総合的な評価を確実にするために,様々な評価手法が用いられている。 LogEvalsの評価から得られた洞察は、ログ分析タスクにおけるLLMの長所と短所を明らかにし、研究者や実践者にとって貴重なガイダンスを提供する。

関連論文リスト

IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
SoK: LLM-based Log Parsing [2.2779174914142346]
本稿では,29の大規模言語モデル (LLM) に基づくログ解析手法を体系的にレビューする。我々は,学習パラダイムとプロンプトエンジニアリングパラダイム,効率・有効性向上技術,解析プロセスにおけるLLMの役割を分析した。
論文参考訳（メタデータ） (2025-04-07T09:41:04Z)
AdaptiveLog: An Adaptive Log Analysis Framework with the Collaboration of Large and Small Language Model [42.72663245137984]
本稿では、AdaptiveLogとして知られる適応ログ分析フレームワークを紹介する。優れた結果を確保しつつ、LLMに関連するコストを効果的に削減する。実験では、AdaptiveLogがさまざまなタスクにまたがって最先端の結果を達成することを示した。
論文参考訳（メタデータ） (2025-01-19T12:46:01Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
LogLM: From Task-based to Instruction-based Automated Log Analysis [22.44842963552044]
既存のアプローチでは、ログ分析を独立したタスクを実行するためのモデルトレーニングとして扱うことが多い。本稿では,対数ラベル対を命令応答対の統一形式に変換する命令ベーストレーニング手法を提案する。トレーニングされたモデルであるLogLMは、複雑なユーザ命令に従って、さまざまなタスクをまたいでより一般化することができます。
論文参考訳（メタデータ） (2024-10-12T03:36:52Z)
Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文参考訳（メタデータ） (2024-10-11T03:52:17Z)
LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文参考訳（メタデータ） (2024-08-25T05:34:24Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
LUNAR: Unsupervised LLM-based Log Parsing [34.344687402936835]
LUNARは,効率的かつ市販のログ解析のための教師なし手法である。我々の重要な洞察は、LSMは直接ログ解析に苦労するかもしれないが、それらの性能は比較分析によって大幅に向上できるということである。大規模な公開データセットの実験は、LUNARが精度と効率の点で最先端のログクラフトを著しく上回っていることを示している。
論文参考訳（メタデータ） (2024-06-11T11:32:01Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
Learning Representations on Logs for AIOps [6.47086647390439]
大規模言語モデル(LLM)は、膨大な量のラベルのないデータに基づいて自己監督を用いて訓練される。本稿では,パブリックおよびプロプライエタリなログデータに基づいてトレーニングされたログデータのためのLLMを提案する。提案するLLMは,公開およびプロプライエタリなログデータに基づいてトレーニングされ,複数のダウンストリームタスクにおいて優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2023-08-18T20:34:46Z)
On the Effectiveness of Log Representation for Log-based Anomaly Detection [12.980238412281471]
本研究は,従来のログ解析研究から広く採用されているログ表現技術について検討し,比較する。 6つのログ表現手法を選択し、7つのMLモデルと4つの公開ログデータセットで評価する。また、ログ表現技術を採用する際に、ログ解析プロセスと異なる特徴集約アプローチの影響についても検討する。
論文参考訳（メタデータ） (2023-08-17T02:18:59Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。