論文の概要: AttackSeqBench: Benchmarking Large Language Models in Analyzing Attack Sequences within Cyber Threat Intelligence
- arxiv url: http://arxiv.org/abs/2503.03170v2
- Date: Sun, 05 Oct 2025 10:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 19:16:49.350255
- Title: AttackSeqBench: Benchmarking Large Language Models in Analyzing Attack Sequences within Cyber Threat Intelligence
- Title(参考訳): AttackSeqBench: サイバー脅威インテリジェンスにおける攻撃シーケンスの分析における大規模言語モデルのベンチマーク
- Authors: Haokai Ma, Javier Yong, Yunshan Ma, Kuei Chen, Anis Yusof, Zhenkai Liang, Ee-Chien Chang,
- Abstract要約: サイバー脅威インテリジェンス(CTI)は、敵の行動と行動可能な知識への意図に関する証拠を合成し、サイバー脅威の観察を文書化している。
CTIレポートの非構造的かつ冗長な性質は、セキュリティ実践者が手動でこのようなシーケンスを抽出し分析する上で大きな課題となる。
大規模言語モデル(LLM)は、エンティティ抽出や知識グラフ構築などのサイバーセキュリティタスクにおいて有望であるが、それらの理解と行動シーケンスに対する推論能力はいまだ探索されていない。
- 参考スコア(独自算出の注目度): 17.234214109636113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cyber Threat Intelligence (CTI) reports document observations of cyber threats, synthesizing evidence about adversaries' actions and intent into actionable knowledge that informs detection, response, and defense planning. However, the unstructured and verbose nature of CTI reports poses significant challenges for security practitioners to manually extract and analyze such sequences. Although large language models (LLMs) exhibit promise in cybersecurity tasks such as entity extraction and knowledge graph construction, their understanding and reasoning capabilities towards behavioral sequences remains underexplored. To address this, we introduce AttackSeqBench, a benchmark designed to systematically evaluate LLMs' reasoning abilities across the tactical, technical, and procedural dimensions of adversarial behaviors, while satisfying Extensibility, Reasoning Scalability, and Domain-dpecific Epistemic Expandability. We further benchmark 7 LLMs, 5 LRMs and 4 post-training strategies across the proposed 3 benchmark settings and 3 benchmark tasks within our AttackSeqBench to identify their advantages and limitations in such specific domain. Our findings contribute to a deeper understanding of LLM-driven CTI report understanding and foster its application in cybersecurity operations.
- Abstract(参考訳): サイバー脅威インテリジェンス(CTI)は、サイバー脅威の観測を報告し、敵の行動に関する証拠と、検知、応答、防衛計画を知らせる行動可能な知識への意図を合成する。
しかし、CTIレポートの非構造化と冗長性は、セキュリティ実践者がこのようなシーケンスを手作業で抽出し分析する上で大きな課題となる。
大規模言語モデル(LLM)は、エンティティ抽出や知識グラフ構築などのサイバーセキュリティタスクにおいて有望であるが、それらの理解と行動シーケンスに対する推論能力はいまだ探索されていない。
これを解決するために,LLMの戦術的,技術的,手続き的側面における推論能力を体系的に評価するベンチマークであるAttackSeqBenchを紹介し,拡張性,推論スケーラビリティ,ドメイン依存の疫学拡張性を満足する。
さらに、提案されている3つのベンチマーク設定と、AttackSeqBench内の3つのベンチマークタスクにまたがって、7つのLSM、5つのLIM、4つのポストトレーニング戦略をベンチマークし、これらの特定のドメインにおけるそれらのアドバンテージと制限を特定します。
本研究は, LLMによるCTIレポートの理解を深め, サイバーセキュリティ業務への活用を促進することに貢献した。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。
我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。
私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文 参考訳(メタデータ) (2025-02-18T19:33:14Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - CTINEXUS: Leveraging Optimized LLM In-Context Learning for Constructing Cybersecurity Knowledge Graphs Under Data Scarcity [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI抽出法は柔軟性と一般化性に欠けており、しばしば不正確で不完全な知識抽出をもたらす。
CTINexusは,大規模言語モデルのテキスト内学習(ICL)を最適化した新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - CTISum: A New Benchmark Dataset For Cyber Threat Intelligence Summarization [14.287652216484863]
サイバー脅威インテリジェンス(CTI)の要約は、Webインテリジェンスデータから簡潔で正確なハイライトを生成する。
CTI要約タスク用に設計された新しいベンチマークデータセットであるCTISumを紹介する。
また、リスク評価、セキュリティギャップの特定、脆弱性の発見などを目的とした、攻撃プロセスの要約という、新たなきめ細かいサブタスクも提案する。
論文 参考訳(メタデータ) (2024-08-13T02:25:16Z) - CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence [0.7499722271664147]
CTIBenchは、CTIアプリケーションにおける大規模言語モデルの性能を評価するために設計されたベンチマークである。
これらのタスクにおけるいくつかの最先端モデルの評価は、CTIコンテキストにおけるその強みと弱みに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-06-11T16:42:02Z) - Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。
実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文 参考訳(メタデータ) (2024-06-09T19:18:05Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。