論文の概要: On Technique Identification and Threat-Actor Attribution using LLMs and Embedding Models
- arxiv url: http://arxiv.org/abs/2505.11547v1
- Date: Thu, 15 May 2025 04:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.693106
- Title: On Technique Identification and Threat-Actor Attribution using LLMs and Embedding Models
- Title(参考訳): LLMと埋め込みモデルを用いた技術同定と脅威アクター属性について
- Authors: Kyla Guru, Robert J. Moss, Mykel J. Kochenderfer,
- Abstract要約: 本研究は,法医学的資料から抽出した行動指標に基づいて,サイバー攻撃属性の大規模言語モデル(LLM)を評価する。
我々のフレームワークは、ベクトル埋め込み検索を用いてテキストからTPを識別し、学習する機械学習モデルに新しい攻撃を属性付けるプロファイルを構築する。
- 参考スコア(独自算出の注目度): 37.81839740673437
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Attribution of cyber-attacks remains a complex but critical challenge for cyber defenders. Currently, manual extraction of behavioral indicators from dense forensic documentation causes significant attribution delays, especially following major incidents at the international scale. This research evaluates large language models (LLMs) for cyber-attack attribution based on behavioral indicators extracted from forensic documentation. We test OpenAI's GPT-4 and text-embedding-3-large for identifying threat actors' tactics, techniques, and procedures (TTPs) by comparing LLM-generated TTPs against human-generated data from MITRE ATT&CK Groups. Our framework then identifies TTPs from text using vector embedding search and builds profiles to attribute new attacks for a machine learning model to learn. Key contributions include: (1) assessing off-the-shelf LLMs for TTP extraction and attribution, and (2) developing an end-to-end pipeline from raw CTI documents to threat-actor prediction. This research finds that standard LLMs generate TTP datasets with noise, resulting in a low similarity to human-generated datasets. However, the TTPs generated are similar in frequency to those within the existing MITRE datasets. Additionally, although these TTPs are different than human-generated datasets, our work demonstrates that they still prove useful for training a model that performs above baseline on attribution. Project code and files are contained here: https://github.com/kylag/ttp_attribution.
- Abstract(参考訳): サイバー攻撃の帰属は依然として複雑だが、サイバーディフェンダーにとって重要な課題である。
現在、厳密な法医学文書から行動指標を手動で抽出することは、特に国際規模での重大な出来事の後、重大な帰属遅延を引き起こす。
本研究は,法医学的資料から抽出した行動指標に基づいて,サイバー攻撃帰属のための大規模言語モデル(LLM)を評価する。
我々は,脅威俳優の戦術,技法,手順(TTP)を,MITRE ATT&CKグループによる人為的データと比較することにより,OpenAIのGPT-4とテキスト埋め込み3-largeを検証した。
我々のフレームワークは、ベクトル埋め込み検索を用いてテキストからTPを識別し、学習する機械学習モデルに新しい攻撃を属性付けるプロファイルを構築する。
主な貢献は,(1)TTP抽出および属性抽出のための既製のLCMの評価,(2)生のCTI文書から脅威・アクター予測までのエンドツーエンドパイプラインの開発である。
本研究は、標準LLMがノイズ付きTPデータセットを生成し、その結果、人為的なデータセットとの類似性が低いことを明らかにする。
しかし、生成されたTPは既存のMITREデータセットに類似している。
さらに、これらのTTPは人為的なデータセットとは異なるが、我々の研究は、属性に基づいてベースライン以上を実行するモデルのトレーニングに有用であることを証明している。
プロジェクトコードとファイルは以下の通りである。
関連論文リスト
- SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - GenDFIR: Advancing Cyber Incident Timeline Analysis Through Retrieval Augmented Generation and Large Language Models [0.08192907805418582]
デジタル法医学とインシデント応答(DFIR)におけるサイバータイムライン解析の重要性
伝統的な手法は、証拠の識別と特徴抽出のためにログやメタデータのような構造化された成果物に依存している。
本稿では,大規模言語モデル(LLM)を利用したフレームワークであるGenDFIR,特にゼロショットモードのLlama 3.1 8Bについて紹介し,Retrieval-Augmented Generation (RAG)エージェントと統合する。
論文 参考訳(メタデータ) (2024-09-04T09:46:33Z) - Text-Driven Neural Collaborative Filtering Model for Paper Source Tracing [1.124958340749622]
PST(Paper Source Tracing)タスクは、与えられた学術論文に対する重要な参照の識別を自動化することを目的としている。
このフレームワークでは、最終的な予測を生成するために、Neural Collaborative Filtering(NCF)モデルを採用している。
本手法は平均精度(MAP)測定値で0.37814のスコアを達成し,ベースラインモデルを上回っ,全参加チームで11位となった。
論文 参考訳(メタデータ) (2024-07-25T02:48:56Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - From Threat Reports to Continuous Threat Intelligence: A Comparison of
Attack Technique Extraction Methods from Textual Artifacts [11.396560798899412]
脅威レポートには、非構造化テキスト形式で書かれた攻撃戦術、テクニック、手順(TTP)の詳細な記述が含まれている。
文献ではTP抽出法が提案されているが,これらすべての方法が互いに,あるいはベースラインと比較されているわけではない。
本研究では,本研究から既存のTP抽出研究10点を同定し,本研究から5つの方法を実装した。
提案手法は,TFIDF(Term Frequency-Inverse Document Frequency)とLSI(Latent Semantic Indexing)の2つで,F1スコアが84%,83%の他の3手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-05T23:21:41Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - DeepTaskAPT: Insider APT detection using Task-tree based Deep Learning [1.5026200429729288]
本稿では,タスク列に基づくベースラインモデルを構築するための,異種タスクツリーに基づくディープラーニング手法を提案する。
DeepTaskAPTは、シーケンシャルなログエントリに直接モデルを適用するのではなく、プロセスツリーベースのタスク生成メソッドを適用します。
知る限りでは、これは最近導入されたOPTCデータセットをサイバー脅威検出に使用するための最初の試みである。
論文 参考訳(メタデータ) (2021-08-31T17:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。