論文の概要: ForensicsData: A Digital Forensics Dataset for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.05331v1
- Date: Sun, 31 Aug 2025 19:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.433562
- Title: ForensicsData: A Digital Forensics Dataset for Large Language Models
- Title(参考訳): ForensicsData: 大規模言語モデルのためのデジタル法医学データセット
- Authors: Youssef Chakir, Iyad Lahsen-Cherif,
- Abstract要約: ForensicsDataは、実際のマルウェア分析レポートから得られた広範囲なQ-C-Aデータセットである。
ユニークなワークフローを使用してデータセットを生成し、構造化されたデータを抽出した。
Gemini 2 Flashは、生成されたコンテンツを法医学用語と整合させる上で、最高のパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing complexity of cyber incidents presents significant challenges for digital forensic investigators, especially in evidence collection and analysis. Public resources are still limited because of ethical, legal, and privacy concerns, even though realistic datasets are necessary to support research and tool developments. To address this gap, we introduce ForensicsData, an extensive Question-Context-Answer (Q-C-A) dataset sourced from actual malware analysis reports. It consists of more than 5,000 Q-C-A triplets. A unique workflow was used to create the dataset, which extracts structured data, uses large language models (LLMs) to transform it into Q-C-A format, and then uses a specialized evaluation process to confirm its quality. Among the models evaluated, Gemini 2 Flash demonstrated the best performance in aligning generated content with forensic terminology. ForensicsData aims to advance digital forensics by enabling reproducible experiments and fostering collaboration within the research community.
- Abstract(参考訳): サイバーインシデントの複雑さの増大は、特に証拠収集と分析において、デジタル法医学研究者にとって重大な課題となっている。
現実的なデータセットは研究やツール開発を支援するのに必要だが、倫理的、法的、プライバシー上の懸念から、公共資源はまだ限られている。
このギャップに対処するため、実際のマルウェア分析レポートから得られた広範囲なQ-C-AデータセットであるForensicsDataを紹介した。
5000以上のQ-C-A三つ子で構成されている。
独自のワークフローを使用してデータセットを作成し、構造化されたデータを抽出し、大きな言語モデル(LLM)を使用してQ-C-Aフォーマットに変換し、その品質を確認するために特殊な評価プロセスを使用する。
評価されたモデルの中で、Gemini 2 Flashは、生成されたコンテンツを法医学用語と整合させる上で、最高のパフォーマンスを示した。
ForensicsDataは、再現可能な実験を可能にし、研究コミュニティ内でのコラボレーションを促進することによって、デジタル法医学の進歩を目指している。
関連論文リスト
- DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response [0.0]
大規模言語モデル(LLM)は、デジタルフォサイシクスとインシデント応答(DFIR)に新たな機会を提供する
LLMは、ログ分析やメモリなどのDFIRタスクに新たな機会を提供するが、エラーや幻覚への感受性は、高い文脈で懸念を引き起こす。
本稿では,DFIR領域と実用領域の双方にわたるLSMを評価するベンチマークであるDFIR-Metricを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:35:37Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Decoding MIE: A Novel Dataset Approach Using Topic Extraction and Affiliation Parsing [0.0]
本研究は,医療情報学ヨーロッパ(MIE)会議の手続きから得られた新しいデータセットを紹介する。
我々は,「健康技術・情報学研究」誌の4,606論文からメタデータと要約を抽出し,分析した。
論文 参考訳(メタデータ) (2024-10-06T19:34:23Z) - GenDFIR: Advancing Cyber Incident Timeline Analysis Through Retrieval Augmented Generation and Large Language Models [0.08192907805418582]
デジタル法医学とインシデント応答(DFIR)におけるサイバータイムライン解析の重要性
伝統的な手法は、証拠の識別と特徴抽出のためにログやメタデータのような構造化された成果物に依存している。
本稿では,大規模言語モデル(LLM)を利用したフレームワークであるGenDFIR,特にゼロショットモードのLlama 3.1 8Bについて紹介し,Retrieval-Augmented Generation (RAG)エージェントと統合する。
論文 参考訳(メタデータ) (2024-09-04T09:46:33Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
本稿では,実行すべきタスクを実演する少数のユーザ記述型少数ショットを前提として,合成データセットを生成する手法を提案する。
我々は, CRAFTが生物, 医学, 常識質問応答(QA)の4つのタスクに対して, 大規模タスク特化学習データセットを効率的に生成できることを実証した。
実験の結果, CRAFT を用いたモデルでは, 一般 LLM をQA タスクで上回ったり, 一致させたりしていることがわかった。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Integration of Domain Expert-Centric Ontology Design into the CRISP-DM for Cyber-Physical Production Systems [45.05372822216111]
機械学習(ML)とデータマイニング(DM)の手法は、収集されたデータから複雑で隠れたパターンを抽出する上で有望であることが証明されている。
しかし、このようなデータ駆動プロジェクトは、通常、CRISPDM(Cross-Industry Standard Process for Data Mining)で実行され、データの理解と準備に要する時間の不均等さのために失敗することが多い。
このコントリビューションは、データサイエンティストがCPPSの課題に対してより迅速かつ確実に洞察を得ることができるように、統合されたアプローチを提供することを目的としている。
論文 参考訳(メタデータ) (2023-07-21T15:04:00Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Automated Artefact Relevancy Determination from Artefact Metadata and
Associated Timeline Events [7.219077740523683]
ケースハンダーで、多年にわたるデジタル法医学的証拠バックログは、世界中の法執行機関で一般的になっている。
これは、デジタル法医学的な調査を必要とするケースが、ケースごとに処理されるデータの量の増加と相まって増え続けているためである。
以前に処理されたデジタル法医学ケースとそれらのコンポーネントのアーティファクト関連性分類を活用することは、自動化された人工知能ベースのエビデンス処理システムのトレーニングの機会を促進することができる。
論文 参考訳(メタデータ) (2020-12-02T14:14:26Z) - Visilant: Visual Support for the Exploration and Analytical Process
Tracking in Criminal Investigations [1.8594711725515676]
Visilantは、提案した設計によってガイドされた犯罪データの探索と分析のためのWebベースのツールである。
このツールは2つのセッションで上級犯罪学の専門家によって評価され、そのフィードバックは論文にまとめられている。
論文 参考訳(メタデータ) (2020-09-21T09:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。