論文の概要: CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?
- arxiv url: http://arxiv.org/abs/2603.09452v1
- Date: Tue, 10 Mar 2026 10:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.218445
- Title: CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?
- Title(参考訳): CyberThreat-Eval: 大規模言語モデルは現実世界の脅威研究を自動化できるか?
- Authors: Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang,
- Abstract要約: CyberThreat-Evalは、大規模言語モデルのエキスパートアノテーション付きベンチマークである。
ワールドリード企業の日々のCTIワークフローから収集される。
事実の正確性、コンテンツ品質、運用コストを測定するアナリスト中心のメトリクスを使用する。
- 参考スコア(独自算出の注目度): 7.986069971886487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyzing Open Source Intelligence (OSINT) from large volumes of data is critical for drafting and publishing comprehensive CTI reports. This process usually follows a three-stage workflow -- triage, deep search and TI drafting. While Large Language Models (LLMs) offer a promising route toward automation, existing benchmarks still have limitations. These benchmarks often consist of tasks that do not reflect real-world analyst workflows. For example, human analysts rarely receive tasks in the form of multiple-choice questions. Also, existing benchmarks often rely on model-centric metrics that emphasize lexical overlap rather than actionable, detailed insights essential for security analysts. Moreover, they typically fail to cover the complete three-stage workflow. To address these issues, we introduce CyberThreat-Eval, which is collected from the daily CTI workflow of a world-leading company. This expert-annotated benchmark assesses LLMs on practical tasks across all three stages as mentioned above. It utilizes analyst-centric metrics that measure factual accuracy, content quality, and operational costs. Our evaluation using this benchmark reveals important insights into the limitations of current LLMs. For example, LLMs often lack the nuanced expertise required to handle complex details and struggle to distinguish between correct and incorrect information. To address these challenges, the CTI workflow incorporates both external ground-truth databases and human expert knowledge. TRA allows human experts to iteratively provide feedback for continuous improvement. The code is available at \href{https://github.com/xschen-beb/CyberThreat-Eval}{\texttt{GitHub}} and \href{https://huggingface.co/datasets/xse/CyberThreat-Eval}{\texttt{HuggingFace}}.
- Abstract(参考訳): 大量のデータからオープンソースインテリジェンス(OSINT)を分析することは、包括的なCTIレポートの起草と公開に不可欠である。
このプロセスは通常、トリアージ、ディープ検索、TIドラフトという3段階のワークフローに従う。
大きな言語モデル(LLM)は自動化への有望な道筋を提供するが、既存のベンチマークには制限がある。
これらのベンチマークは、現実世界のアナリストのワークフローを反映しないタスクで構成されていることが多い。
例えば、人間アナリストが複数の質問の形式でタスクを受け取ることはめったにない。
また、既存のベンチマークは、セキュリティアナリストにとって不可欠なアクション可能で詳細な洞察よりも、語彙的な重複を強調するモデル中心のメトリクスに依存していることが多い。
さらに、通常は完全な3段階ワークフローをカバーできない。
これらの問題に対処するために、世界リード企業の日々のCTIワークフローから収集されるCyberThreat-Evalを紹介します。
このエキスパートアノテートされたベンチマークは、前述のように3つのステージすべてにわたる実践的なタスクでLCMを評価します。
アナリスト中心のメトリクスを使用して、事実の正確性、コンテンツ品質、運用コストを測定する。
本ベンチマークによる評価は,現在のLLMの限界に対する重要な洞察を明らかにするものである。
例えば、LSMは複雑な詳細を扱うのに必要な専門知識を欠き、正しい情報と間違った情報を区別するのに苦労することが多い。
これらの課題に対処するため、CTIのワークフローには、外部の基幹データベースと人間の専門知識の両方が組み込まれている。
TRAは、人間の専門家が継続的改善のために反復的にフィードバックを提供することを可能にする。
コードは \href{https://github.com/xschen-beb/CyberThreat-Eval}{\textt{GitHub}} と \href{https://huggingface.co/datasets/xse/CyberThreat-Eval}{\textt{HuggingFace}} で入手できる。
関連論文リスト
- CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis [7.007981312278749]
我々はCryptoAnalystBenchを紹介した。CryptoAnalystBenchは198のプロダクション暗号と11のカテゴリにまたがるDeFiクエリのベンチマークである。
本研究では,事実性チェックやLCMに基づく品質評価によって確実に把握できない7種類の高次誤差型の分類法を開発する。
これらの失敗は、最先端のシステムでも継続し、高い利害判断を損なう可能性があることに気付きました。
論文 参考訳(メタデータ) (2026-02-11T19:29:31Z) - GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - When LLM Meets Time Series: Can LLMs Perform Multi-Step Time Series Reasoning and Inference [12.867006554196358]
我々は、時系列AIアシスタントとしてLarge Language Modelsを評価する最初の試みであるTSAIAベンチマークを紹介する。
このベンチマークには、制約認識予測からしきい値校正による異常検出まで、幅広い課題が含まれている。
このベンチマークを適用し、統一評価プロトコルの下で8つの最先端LCMを評価する。
論文 参考訳(メタデータ) (2025-09-01T22:58:57Z) - Towards a Holistic and Automated Evaluation Framework for Multi-Level Comprehension of LLMs in Book-Length Contexts [19.640586886024952]
HAMLETは、大規模言語モデルの長文理解を評価するためのフレームワークである。
テキストをルート、ブランチ、リーフレベルで3段階のキーファクト階層に構造化する。
クエリ中心の要約を使用して、モデルがどのようにして各レベルで情報をリコールし、忠実に表現するかを評価する。
論文 参考訳(メタデータ) (2025-08-27T05:23:22Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - AIRepr: An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [8.281093505963158]
大規模言語モデル(LLM)は、実行可能なコード生成を通じてデータ分析を自動化するために、ますます使われるようになっている。
本稿では,LLM生成データ分析の自動評価と改善のための分析・検査フレームワークであるAIReprについて述べる。
論文 参考訳(メタデータ) (2025-02-23T01:15:50Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。