論文の概要: A Story About Cohesion and Separation: Label-Free Metric for Log Parser Evaluation
- arxiv url: http://arxiv.org/abs/2512.21811v1
- Date: Fri, 26 Dec 2025 00:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 20:48:41.989926
- Title: A Story About Cohesion and Separation: Label-Free Metric for Log Parser Evaluation
- Title(参考訳): 結合と分離に関する物語:ログパーザ評価のためのラベルなしメトリクス
- Authors: Qiaolin Qin, Jianchen Zhao, Heng Li, Weiyi Shang, Ettore Merlo,
- Abstract要約: 既存の評価指標はラベル付きログデータに大きく依存している。
既存の研究で使われている基底真実の異なるバージョンは、矛盾したパフォーマンスの結論につながる可能性がある。
そこで我々は,新しいログフリーテンプレートレベル指標PMSSを提案し,性能評価を行った。
- 参考スコア(独自算出の注目度): 9.344666271414688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Log parsing converts log messages into structured event templates, allowing for automated log analysis and reducing manual inspection effort. To select the most compatible parser for a specific system, multiple evaluation metrics are commonly used for performance comparisons. However, existing evaluation metrics heavily rely on labeled log data, which limits prior studies to a fixed set of datasets and hinders parser evaluations and selections in the industry. Further, we discovered that different versions of ground-truth used in existing studies can lead to inconsistent performance conclusions. Motivated by these challenges, we propose a novel label-free template-level metric, PMSS (parser medoid silhouette score), to evaluate log parser performance. PMSS evaluates both parser grouping and template quality with medoid silhouette analysis and Levenshtein distance within a near-linear time complexity in general. To understand its relationship with label-based template-level metrics, FGA and FTA, we compared their evaluation outcomes for six log parsers on the standard corrected Loghub 2.0 dataset. Our results indicate that log parsers achieving the highest PMSS or FGA exhibit comparable performance, differing by only 2.1% on average in terms of the FGA score; the difference is 9.8% for FTA. PMSS is also significantly (p<1e-8) and positively correlated to both FGA and FTA: the Spearman's rho correlation coefficient of PMSS-FGA and PMSS-FTA are respectively 0.648 and 0.587, close to the coefficient between FGA and FTA (0.670). We further extended our discussion on how to interpret the conclusions from different metrics, identifying challenges in using PMSS, and provided guidelines on conducting parser selections with our metric. PMSS provides a valuable evaluation alternative when ground-truths are inconsistent or labels are unavailable.
- Abstract(参考訳): ログ解析はログメッセージを構造化されたイベントテンプレートに変換し、ログの自動解析と手作業による検査作業の削減を可能にする。
特定のシステムに対して最も互換性のあるパーサを選択するために、複数の評価指標が一般的に性能比較に使用される。
しかし、既存の評価指標はラベル付きログデータに大きく依存しており、これは事前研究をデータセットの固定セットに制限し、業界におけるパーサの評価と選択を妨げる。
さらに,既存研究で用いられている地上構造の違いが,不整合性能の結論に繋がることが判明した。
これらの課題に乗じて、ログパーサの性能を評価するために、新しいラベルなしテンプレートレベル計量PMSS(parser medoid silhouette score)を提案する。
PMSSは,メドイドシルエット解析とレベンシュテイン距離を概ね線形時間差で解析することにより,パーサグルーピングとテンプレート品質の評価を行った。
ラベルベースのテンプレートレベルメトリクスであるFGAとFTAとの関係を理解するため、標準修正Loghub 2.0データセット上の6つのログパーサの評価結果を比較した。
以上の結果から,最大PMSSあるいはFGAを達成するログパーザはFGAスコアで平均2.1%の差があり,FTAでは9.8%であった。
PMSS-FGAとPMSS-FTAのスピアマンのロー相関係数はそれぞれ0.648と0.587であり、FGAとFTAの相関係数(0.670)に近い。
さらに、異なる指標から結論をどう解釈するか、PMSSを使用する際の課題を特定する方法についての議論を拡大し、我々の指標によるパーサ選択の実施に関するガイドラインを提供した。
PMSSは、基幹構造が矛盾したり、ラベルが利用できない場合に、価値ある評価方法を提供する。
関連論文リスト
- VegaChat: A Robust Framework for LLM-Based Chart Generation and Assessment [1.8549313085249322]
本稿では,自然言語から宣言的視覚化を生成し,検証し,評価するフレームワークであるVegaChatを紹介する。
LLMを起動することなく仕様レベルの類似度を測定する決定論的計量であるSpec Scoreと、ライブラリに依存しない画像ベース計量であるVision Scoreの2つの相補的な指標を提案する。
VegaChatは、無効または空のヴィジュアライゼーションのほぼゼロの速度を達成する一方、Spec ScoreとVision Scoreは、人間の判断と強い相関を示す。
論文 参考訳(メタデータ) (2026-01-21T19:02:11Z) - Towards Consistent Detection of Cognitive Distortions: LLM-Based Annotation and Dataset-Agnostic Evaluation [2.699704259580951]
テキストに基づく自動認知歪み検出は、主観的な性質のため難しい課題である。
一貫性のある信頼性のあるアノテータとしてLarge Language Models (LLM)の使用について検討する。
論文 参考訳(メタデータ) (2025-11-03T11:45:26Z) - Plug it and Play on Logs: A Configuration-Free Statistic-Based Log Parser [2.342181121922312]
ログ解析はログ解析において必須のタスクであり、それを実現するために多くのツールが設計されている。
セマンティックベースと比べ、既存の統計ベースはより効率的で、計算コストが低く、オンプレミスのデプロイによってプライバシーが保護される傾向にある。
統計ベースは意味ベースほど効果的ではないという共通の信念となった。
我々の研究は、新しい統計に基づくPIPLUPによってこの信念に挑戦する。
論文 参考訳(メタデータ) (2025-08-12T21:47:27Z) - Assessing the Sensitivity and Alignment of FOL Closeness Metrics [10.795521518273214]
既存のNL-, FOL-, グラフベースメトリクスの感度について検討し, サンプルFOLとそれに対応する接地構造との差を捉えた。
メトリクスを組み合わせることで、個々のメトリクスに比べて堅牢性と感度が向上することを示す。
論文 参考訳(メタデータ) (2025-01-15T06:22:35Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - Lemur: Log Parsing with Entropy Sampling and Chain-of-Thought Merging [18.823038918091207]
我々は、textbfEntropy サンプリングとチェーン・オブ・シンクトの textbfMerging (model) を用いた最先端の textbfLog 解析フレームワークを導入する。
退屈な手作業のルールを捨てるために,情報エントロピーにインスパイアされた新しいサンプリング手法を提案し,典型的なログを効率的にクラスタリングする。
大規模な公開データセットの実験を行った。
論文 参考訳(メタデータ) (2024-02-28T09:51:55Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Using Rater and System Metadata to Explain Variance in the VoiceMOS
Challenge 2022 Dataset [71.93633698146002]
VoiceMOS 2022チャレンジでは、合成音声変換と主観的なラベル付き音声音声合成サンプルのデータセットが提供された。
本研究では,メタデータからの音声品質の主観評価とデータセットの分布不均衡から説明できる分散量について検討する。
論文 参考訳(メタデータ) (2022-09-14T00:45:49Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。