論文の概要: Bandit on the Hunt: Dynamic Crawling for Cyber Threat Intelligence
- arxiv url: http://arxiv.org/abs/2304.11960v3
- Date: Fri, 17 Jan 2025 13:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:26.182468
- Title: Bandit on the Hunt: Dynamic Crawling for Cyber Threat Intelligence
- Title(参考訳): Bandit on the Hunt: サイバー脅威インテリジェンスのためのダイナミッククローリング
- Authors: Philipp Kuehn, Dilara Nadermahmoodi, Markus Bayer, Christian Reuter,
- Abstract要約: 本稿では,マルチアームバンディット(MAB)に基づくサイバー脅威インテリジェンス(CTI)ドメインに着目した集中型クローラを提案する。
本研究では,収穫率25%以上を達成し,使用済み種子を300%以上拡大できるThreatCrawlというシステムを提案する。
さらに、このクローラは、以前は知られていなかったが、非常に関連性の高い概要ページ、データセット、ドメインを特定した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Public information contains valuable Cyber Threat Intelligence (CTI) that is used to prevent attacks in the future. Ideally, the learnings from previous attacks help to mitigate all those that follow. While there are standards for sharing this information, much of it is shared in non-standardized news articles or blog posts. It is a time-consuming task to monitor online sources for threats and even then, one can never be sure, to use the right sources. Current research propose extractors of Indicators of Compromise from known sources, while the identification of new sources is rarely considered. This paper proposes a focused crawler focused on the CTI domain based on multi-armed bandit ( MAB) and different crawling strategies. It uses SBERT to identify relevant documents, while dynamically adapt its crawling path. We propose a system called ThreatCrawl, which achieve a harvest rate of over 25% and is able to expand its used seed by over 300%, while retaining focus on the topic at hand. In addition, this crawler identified previously unknown but highly relevant overview pages, datasets, and domains.
- Abstract(参考訳): 公共情報には、将来の攻撃を防ぐために使用される貴重なサイバー脅威情報(CTI)が含まれている。
理想的には、以前の攻撃から学んだことは、従うすべての者を緩和するのに役立ちます。
この情報を共有するための標準はあるが、多くは標準化されていないニュース記事やブログ投稿で共有されている。
オンラインソースの脅威を監視するのに時間を要する作業であり、それでも、正しいソースを使用することは確実ではない。
本研究は, 既知資料からコンロミズ指標を抽出する手法を提案するが, 新たな資料の同定はめったに検討されていない。
本稿では、マルチアームバンディット(MAB)と異なるクローリング戦略に基づいて、CTIドメインに焦点を絞ったクローラーを提案する。
SBERTを使用して関連ドキュメントを識別し、クローリングパスを動的に適応する。
本研究では,収穫率25%以上を達成し,使用済み種子を300%以上拡大できるThreatCrawlというシステムを提案する。
さらに、このクローラは、以前は知られていなかったが、非常に関連性の高い概要ページ、データセット、ドメインを特定した。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports [3.6785107661544805]
我々は、新しいCC-BY-SAライセンスのサイバー脅威レポートであるAnnoCTRを提示する。
レポートはドメインの専門家によって、名前付きエンティティ、時間表現、サイバーセキュリティ特有の概念によって注釈付けされている。
少数のシナリオでは、テキストで明示的にあるいは暗黙的に言及されるMITRE ATT&CKの概念を識別するために、MITRE ATT&CKの概念記述は、データ拡張のトレーニングに有効な情報源であることがわかった。
論文 参考訳(メタデータ) (2024-04-11T14:04:36Z) - IsoEx: an explainable unsupervised approach to process event logs cyber
investigation [0.0]
本稿では,異常および潜在的に問題のあるコマンド行を検出するための新しい手法であるIsoExを提案する。
異常を検出するために、IsoExは高度に敏感かつ軽量な教師なしの異常検出技術を利用する。
論文 参考訳(メタデータ) (2023-06-07T14:22:41Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - ThreatCluster: Threat Clustering for Information Overload Reduction in Computer Emergency Response Teams [0.0]
情報ソースの脅威と多様性はCERTにとって課題となる。
新たな脅威に対応するため、CERTはタイムリーで包括的な方法で情報を集める必要がある。
本稿では,CERTにおける情報過負荷を低減する方法について考察する。
論文 参考訳(メタデータ) (2022-10-25T14:50:11Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - What are the attackers doing now? Automating cyber threat intelligence
extraction from text on pace with the changing threat landscape: A survey [1.1064955465386]
文献から「テキストからのCTI抽出」関連研究を体系的に収集する。
提案するパイプラインのコンテキストで使用するデータソース,テクニック,CTI共有フォーマットを同定する。
論文 参考訳(メタデータ) (2021-09-14T16:38:41Z) - Short Text Classification Approach to Identify Child Sexual Exploitation
Material [4.415977307120616]
本稿では,児童性行為資料(CSEM)ファイルを識別するために,短いテキスト分類に基づく2つのアプローチを提案する。
提案されたソリューションは、すべてのファイルのビジュアルコンテンツに取り組むことなくCSEMを識別するための法執行機関をサポートするための法医学ツールやサービスに統合することができる。
論文 参考訳(メタデータ) (2020-10-29T09:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。