論文の概要: REFLEX: Reference-Free Evaluation of Log Summarization via Large Language Model Judgment
- arxiv url: http://arxiv.org/abs/2511.07458v1
- Date: Wed, 12 Nov 2025 01:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.337842
- Title: REFLEX: Reference-Free Evaluation of Log Summarization via Large Language Model Judgment
- Title(参考訳): REFLEX:大規模言語モデル判断によるログ要約の参照フリー評価
- Authors: Priyanka Mudgal,
- Abstract要約: 本稿では,大言語モデル(LLM)に基づくログ要約のための基準フリー評価指標REFLEXを紹介する。
我々は,REFLEXが複数のログ要約データセットに対して安定かつ解釈可能かつきめ細かな評価を行い,より効果的にモデル出力を従来の指標と区別することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating log summarization systems is challenging due to the lack of high-quality reference summaries and the limitations of existing metrics like ROUGE and BLEU, which depend on surface-level lexical overlap. We introduce REFLEX, a reference-free evaluation metric for log summarization based on large language model (LLM) judgment. REFLEX uses LLMs as zero-shot evaluators to assess summary quality along dimensions such as relevance, informativeness, and coherence, without requiring gold-standard references or human annotations. We show that REFLEX produces stable, interpretable, and fine-grained evaluations across multiple log summarization dataset, and more effectively distinguishes model outputs than traditional metrics. REFLEX provides a scalable alternative for evaluating log summaries in real-world settings where reference data is scarce or unavailable.
- Abstract(参考訳): ログの要約システムの評価は、高品質な参照サマリーの欠如と、表面レベルの語彙重なりに依存するROUGEやBLEUのような既存のメトリクスの制限により困難である。
本稿では,大言語モデル(LLM)に基づくログ要約のための基準フリー評価指標REFLEXを紹介する。
REFLEXはLDMをゼロショット評価器として使用し、ゴールドスタンダードの参照や人間のアノテーションを必要とせずに、関連性、情報性、コヒーレンスといった次元に沿った要約品質を評価する。
我々は,REFLEXが複数のログ要約データセットに対して安定かつ解釈可能かつきめ細かな評価を行い,より効果的にモデル出力を従来の指標と区別することを示した。
REFLEXは、参照データが不足したり、利用できない実世界の設定でログの要約を評価するためのスケーラブルな代替手段を提供する。
関連論文リスト
- TALE: A Tool-Augmented Framework for Reference-Free Evaluation of Large Language Models [16.857263524133284]
大規模言語モデル(LLM)は、現実の自律型アプリケーションに統合されつつある。
評価のための静的な注釈付き参照に頼ることは、コスト、スケーラビリティ、完全性において大きな課題を引き起こす。
提案するツール拡張LDM評価(TALE: Tool-Augmented LLM Evaluation)は,LLMの出力を所定の基礎的回答なしで評価するフレームワークである。
論文 参考訳(メタデータ) (2025-04-10T02:08:41Z) - Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - DocAsRef: An Empirical Study on Repurposing Reference-Based Summary
Quality Metrics Reference-Freely [29.4981129248937]
そこで本論文では,参照に基づくメトリクスを効果的に適用して,対応する参照に対してシステム概要を評価することを提案する。
ゼロショットのBERTScoreは、参照フリーで再利用された後、オリジナルの参照ベースバージョンよりも一貫してパフォーマンスが向上した。
GPT-3.5に基づくゼロショット要約評価器と密接に競合する。
論文 参考訳(メタデータ) (2022-12-20T06:01:13Z) - Spurious Correlations in Reference-Free Evaluation of Text Generation [35.80256755393739]
本研究では,要約とダイアログ生成の基準フリー評価指標が,単語重複,パープレキシティ,長さなどの指標と急激な相関に依拠していることを示す。
評価指標を明示的に設計し,参照不要な評価の急激な特徴を避けることで,これらの誤差を軽減できることを実証する。
論文 参考訳(メタデータ) (2022-04-21T05:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。