論文の概要: AutoDFBench 1.0: A Benchmarking Framework for Digital Forensic Tool Testing and Generated Code Evaluation
- arxiv url: http://arxiv.org/abs/2512.16965v1
- Date: Thu, 18 Dec 2025 11:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.130404
- Title: AutoDFBench 1.0: A Benchmarking Framework for Digital Forensic Tool Testing and Generated Code Evaluation
- Title(参考訳): AutoDFBench 1.0: デジタル法医学ツールテストとコード評価生成のためのベンチマークフレームワーク
- Authors: Akila Wickramasekara, Tharusha Mihiranga, Aruna Withanage, Buddhima Weerasinghe, Frank Breitinger, John Sheppard, Mark Scanlon,
- Abstract要約: 本稿では,モジュール型ベンチマークフレームワークであるAutoDFBench 1.0を紹介する。
これは、AI生成コードとエージェントアプローチと同様に、従来のツールとスクリプトの両方の評価をサポートする。
このフレームワークは、ツールと法医学的なスクリプト間で公正かつ再現可能な比較を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The National Institute of Standards and Technology (NIST) Computer Forensic Tool Testing (CFTT) programme has become the de facto standard for providing digital forensic tool testing and validation. However to date, no comprehensive framework exists to automate benchmarking across the diverse forensic tasks included in the programme. This gap results in inconsistent validation, challenges in comparing tools, and limited validation reproducibility. This paper introduces AutoDFBench 1.0, a modular benchmarking framework that supports the evaluation of both conventional DF tools and scripts, as well as AI-generated code and agentic approaches. The framework integrates five areas defined by the CFTT programme: string search, deleted file recovery, file carving, Windows registry recovery, and SQLite data recovery. AutoDFBench 1.0 includes ground truth data comprising of 63 test cases and 10,968 unique test scenarios, and execute evaluations through a RESTful API that produces structured JSON outputs with standardised metrics, including precision, recall, and F1~score for each test case, and the average of these F1~scores becomes the AutoDFBench Score. The benchmarking framework is validated against CFTT's datasets. The framework enables fair and reproducible comparison across tools and forensic scripts, establishing the first unified, automated, and extensible benchmarking framework for digital forensic tool testing and validation. AutoDFBench 1.0 supports tool vendors, researchers, practitioners, and standardisation bodies by facilitating transparent, reproducible, and comparable assessments of DF technologies.
- Abstract(参考訳): National Institute of Standards and Technology (NIST) Computer Forensic Tool Testing (CFTT)プログラムは、デジタル法医学ツールのテストと検証を提供するデファクトスタンダードとなっている。
しかし、現在、プログラムに含まれる様々な法医学的タスクにわたるベンチマークを自動化する包括的なフレームワークは存在しない。
このギャップは、一貫性のない検証、ツール比較の課題、限定された検証再現性をもたらす。
本稿では,従来のDFツールとスクリプト,AI生成コードとエージェントアプローチの両方の評価をサポートするモジュール型ベンチマークフレームワークであるAutoDFBench 1.0を紹介する。
このフレームワークはCFTTプログラムで定義された5つの領域を統合している。文字列検索、削除されたファイルのリカバリ、ファイルの彫刻、Windowsレジストリのリカバリ、SQLiteデータリカバリである。
AutoDFBench 1.0には、63のテストケースと10,968のユニークなテストシナリオからなる地上の真理データが含まれており、各テストケースの精度、リコール、F1~スコアといった標準化されたメトリクスで構造化されたJSON出力を生成するRESTful APIを通じて評価を実行し、これらのF1~スコアの平均がAutoDFBenchスコアとなる。
ベンチマークフレームワークはCFTTのデータセットに対して検証される。
このフレームワークは、ツールと法定スクリプト間で公正かつ再現可能な比較を可能にし、デジタル法定ツールのテストと検証のための最初の統一的で自動化された拡張可能なベンチマークフレームワークを確立する。
AutoDFBench 1.0は、DFテクノロジの透過的で再現性があり、同等の評価を促進することで、ツールベンダ、研究者、実践者、標準化団体をサポートする。
関連論文リスト
- DUALGUAGE: Automated Joint Security-Functionality Benchmarking for Secure Code Generation [18.208257676875586]
大規模言語モデル(LLM)と自律型コーディングエージェントは、広範囲の非メタルドメインにまたがるソフトウェア生成にますます利用されている。
セキュアなコード生成のための既存のベンチマークと評価は、脆弱性の削減、正当性保存の無視、あるいは別々のデータセットのセキュリティと機能の評価のみを短時間で測定する。
GAUGEは,LLM生成コードのセキュリティと正しさを一斉に評価するために設計された,最初の完全自動ベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T22:26:14Z) - FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation [17.64876163735292]
FrontendBenchは、人間と大規模言語モデル(LLM)が共同開発したベンチマークである。
このベンチマークは、5つのレベルのWebコンポーネントにまたがる、148の厳密なプロンプト-テストケースペアで構成されている。
自動評価フレームワークはサンドボックス環境内で生成されたコードを実行し、事前に定義されたテストスクリプトを使用して結果を評価する。
論文 参考訳(メタデータ) (2025-06-16T03:20:31Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - RepoMasterEval: Evaluating Code Completion via Real-World Repositories [14.744942194298673]
RepoMasterEvalは、現実世界のリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。
各ベンチマークは、1つのソースコードファイルから既存のテストスイートでコードスニペットをマスキングすることで生成される。
論文 参考訳(メタデータ) (2024-08-07T03:06:57Z) - OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs [59.836774258359945]
OpenFactCheckは、カスタマイズされたファクトチェックシステムを構築するためのフレームワークである。
ユーザーは自動的にファクトチェッカーをカスタマイズし、文書やクレームの事実的正当性を検証できる。
CheckerEVALは、人間の注釈付きデータセットを使用して、自動ファクトチェッカーの検証結果の信頼性を高めるソリューションである。
論文 参考訳(メタデータ) (2024-05-09T07:15:19Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。