論文の概要: LLMs, You Can Evaluate It! Design of Multi-perspective Report Evaluation for Security Operation Centers
- arxiv url: http://arxiv.org/abs/2601.03013v1
- Date: Tue, 06 Jan 2026 13:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.95149
- Title: LLMs, You Can Evaluate It! Design of Multi-perspective Report Evaluation for Security Operation Centers
- Title(参考訳): セキュリティ運用センターにおけるマルチパースペクティブ・レポート・アセスメントの設計
- Authors: Hiroyuki Okada, Tatsumi Oba, Naoto Yanai,
- Abstract要約: セキュリティオペレーションセンター(SOC)は、しばしばセキュリティインシデントの分析レポートを作成する。
LLMは近い将来、このタスクに使用されるだろう。
ベテランアナリストが、フィードバックを含むレポートをどのように評価するかをよりよく理解することで、SOCにおける分析レポートの作成に役立てることができると仮定する。
- 参考スコア(独自算出の注目度): 0.7136933021609079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Security operation centers (SOCs) often produce analysis reports on security incidents, and large language models (LLMs) will likely be used for this task in the near future. We postulate that a better understanding of how veteran analysts evaluate reports, including their feedback, can help produce analysis reports in SOCs. In this paper, we aim to leverage LLMs for analysis reports. To this end, we first construct a Analyst-wise checklist to reflect SOC practitioners' opinions for analysis report evaluation through literature review and user study with SOC practitioners. Next, we design a novel LLM-based conceptual framework, named MESSALA, by further introducing two new techniques, granularization guideline and multi-perspective evaluation. MESSALA can maximize report evaluation and provide feedback on veteran SOC practitioners' perceptions. When we conduct extensive experiments with MESSALA, the evaluation results by MESSALA are the closest to those of veteran SOC practitioners compared with the existing LLM-based methods. We then show two key insights. We also conduct qualitative analysis with MESSALA, and then identify that MESSALA can provide actionable items that are necessary for improving analysis reports.
- Abstract(参考訳): セキュリティ運用センタ(SOC)は、しばしばセキュリティインシデントの分析レポートを生成する。
ベテランアナリストが、フィードバックを含むレポートをどのように評価するかをよりよく理解することで、SOCにおける分析レポートの作成に役立てることができると仮定する。
本稿では,LSMを解析報告に活用することを目的としている。
そこで我々はまず,SOC実践者による文献レビューとユーザスタディを通じて,分析報告評価のためのSOC実践者の意見を反映した分析的チェックリストを構築した。
次に, グラニュライズガイドラインとマルチパースペクティブ評価という2つの新しい手法を導入することにより, LLM に基づく新しい概念フレームワーク MESSALA を設計する。
MESSALAは、レポートの評価を最大化し、ベテランSOC実践者の認識にフィードバックを提供する。
MESSALA を用いた広範囲な実験を行う場合,MESSALA による評価結果は,既存の LLM 法と比較して,古参の SOC 実践者に最も近い。
次に2つの重要な洞察を示します。
また,MESSALAを用いて定性分析を行い,分析報告の改善に必要な実行可能な項目をMESSALAが提供できることを確認した。
関連論文リスト
- Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。
我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。
本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:23:23Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - T-Eval: Evaluating the Tool Utilization Capability of Large Language
Models Step by Step [69.64348626180623]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
ツール利用能力を段階的に評価するためにT-Evalを導入する。
論文 参考訳(メタデータ) (2023-12-21T17:02:06Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。