論文の概要: DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response
- arxiv url: http://arxiv.org/abs/2505.19973v1
- Date: Mon, 26 May 2025 13:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.468191
- Title: DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response
- Title(参考訳): DFIR-Metric:デジタル鑑定とインシデント応答における大規模言語モデル評価のためのベンチマークデータセット
- Authors: Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi,
- Abstract要約: 大規模言語モデル(LLM)は、デジタルフォサイシクスとインシデント応答(DFIR)に新たな機会を提供する
LLMは、ログ分析やメモリなどのDFIRタスクに新たな機会を提供するが、エラーや幻覚への感受性は、高い文脈で懸念を引き起こす。
本稿では,DFIR領域と実用領域の双方にわたるLSMを評価するベンチマークであるDFIR-Metricを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Digital Forensics and Incident Response (DFIR) involves analyzing digital evidence to support legal investigations. Large Language Models (LLMs) offer new opportunities in DFIR tasks such as log analysis and memory forensics, but their susceptibility to errors and hallucinations raises concerns in high-stakes contexts. Despite growing interest, there is no comprehensive benchmark to evaluate LLMs across both theoretical and practical DFIR domains. To address this gap, we present DFIR-Metric, a benchmark with three components: (1) Knowledge Assessment: a set of 700 expert-reviewed multiple-choice questions sourced from industry-standard certifications and official documentation; (2) Realistic Forensic Challenges: 150 CTF-style tasks testing multi-step reasoning and evidence correlation; and (3) Practical Analysis: 500 disk and memory forensics cases from the NIST Computer Forensics Tool Testing Program (CFTT). We evaluated 14 LLMs using DFIR-Metric, analyzing both their accuracy and consistency across trials. We also introduce a new metric, the Task Understanding Score (TUS), designed to more effectively evaluate models in scenarios where they achieve near-zero accuracy. This benchmark offers a rigorous, reproducible foundation for advancing AI in digital forensics. All scripts, artifacts, and results are available on the project website at https://github.com/DFIR-Metric.
- Abstract(参考訳): デジタル法医学とインシデント・レスポンス(DFIR)は、法的調査を支援するためにデジタル証拠を分析する。
大規模言語モデル(LLM)は、ログ分析やメモリフォサイシクスなどのDFIRタスクにおいて新たな機会を提供するが、エラーや幻覚への感受性は、高い文脈で懸念を引き起こす。
関心が高まりつつあるにもかかわらず、理論的および実用的なDFIR領域の両方でLSMを評価するための包括的なベンチマークは存在しない。
このギャップに対処するため, DFIR-Metricは, (1) 知識評価: 業界標準認定と公式文書から得られた700件のエキスパートレビューされた複数項目の質問の集合, (2) リアル・フォレシック・チャレンジ: 150 CTFスタイルのタスク マルチステップの推論とエビデンス・相関の検証, (3) 実践分析: 500 ディスクとメモリのフォレシック・ケース NIST Computer Forensics Tool Testing Program (CFTT) のケース。
DFIR-Metricを用いて14個のLDMを評価し,その精度と整合性について検討した。
また,タスク理解スコア(TUS)という新しい指標を導入し,ほぼゼロに近い精度のシナリオでモデルをより効果的に評価する。
このベンチマークは、デジタル法医学におけるAIの進歩のための厳格で再現可能な基盤を提供する。
すべてのスクリプト、成果物、結果はプロジェクトのWebサイトでhttps://github.com/DFIR-Metric.comで公開されている。
関連論文リスト
- MedBrowseComp: Benchmarking Medical Deep Research and Computer Use [10.565661515629412]
MedBrowseCompは、エージェントが医療事実を検索し、合成する能力を体系的にテストするベンチマークである。
臨床シナリオを反映した1,000以上の人為的な質問が含まれている。
MedBrowseCompをフロンティアエージェントシステムに適用すると、パフォーマンスの欠点が10%も低くなる。
論文 参考訳(メタデータ) (2025-05-20T22:42:33Z) - BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。
BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。
本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-12T08:54:07Z) - BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology [0.8061245870721293]
LLM(Large Language Models)とLLMをベースとしたエージェントは、科学研究の加速に大きな期待を示している。
本稿では,バイオインフォマティクスベンチマーク(BixBench)について述べる。
オープンソースのカスタムエージェントフレームワークを用いて,2つのフロンティアLCMの性能評価を行った。
論文 参考訳(メタデータ) (2025-02-28T18:47:57Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - GenDFIR: Advancing Cyber Incident Timeline Analysis Through Retrieval Augmented Generation and Large Language Models [0.08192907805418582]
デジタル法医学とインシデント応答(DFIR)におけるサイバータイムライン解析の重要性
伝統的な手法は、証拠の識別と特徴抽出のためにログやメタデータのような構造化された成果物に依存している。
本稿では,大規模言語モデル(LLM)を利用したフレームワークであるGenDFIR,特にゼロショットモードのLlama 3.1 8Bについて紹介し,Retrieval-Augmented Generation (RAG)エージェントと統合する。
論文 参考訳(メタデータ) (2024-09-04T09:46:33Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - THiFLY Research at SemEval-2023 Task 7: A Multi-granularity System for
CTR-based Textual Entailment and Evidence Retrieval [13.30918296659228]
NLI4CTタスクは、臨床トライアル報告(CTR)に基づいて仮説を導き、正当化を支持する証拠を回収することを目的としている。
本稿では,CTRに基づくテキスト検索とエビデンス検索のための多粒度システムを提案する。
我々は,T5ベースモデルであるSciFiveを医療用コーパスで事前学習することで,システムの数値推論能力を向上させる。
論文 参考訳(メタデータ) (2023-06-02T03:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。