論文の概要: ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain
- arxiv url: http://arxiv.org/abs/2304.11960v1
- Date: Mon, 24 Apr 2023 09:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 15:33:22.685916
- Title: ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain
- Title(参考訳): threatcrawl:サイバーセキュリティドメインのためのbertベースの集中クローラ
- Authors: Philipp Kuehn, Mike Schmidt, Christian Reuter
- Abstract要約: ThreatCrawlと呼ばれる新しい集中クローラが提案されている。
BiBERTベースのモデルを使用して文書を分類し、クローリングパスを動的に適応する。
収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Publicly available information contains valuable information for Cyber Threat
Intelligence (CTI). This can be used to prevent attacks that have already taken
place on other systems. Ideally, only the initial attack succeeds and all
subsequent ones are detected and stopped. But while there are different
standards to exchange this information, a lot of it is shared in articles or
blog posts in non-standardized ways. Manually scanning through multiple online
portals and news pages to discover new threats and extracting them is a
time-consuming task. To automize parts of this scanning process, multiple
papers propose extractors that use Natural Language Processing (NLP) to extract
Indicators of Compromise (IOCs) from documents. However, while this already
solves the problem of extracting the information out of documents, the search
for these documents is rarely considered. In this paper, a new focused crawler
is proposed called ThreatCrawl, which uses Bidirectional Encoder
Representations from Transformers (BERT)-based models to classify documents and
adapt its crawling path dynamically. While ThreatCrawl has difficulties to
classify the specific type of Open Source Intelligence (OSINT) named in texts,
e.g., IOC content, it can successfully find relevant documents and modify its
path accordingly. It yields harvest rates of up to 52%, which are, to the best
of our knowledge, better than the current state of the art.
- Abstract(参考訳): 公開情報にはサイバー脅威情報(CTI)の貴重な情報が含まれている。
これは、他のシステムですでに発生した攻撃を防ぐために使用できる。
理想的には、最初の攻撃のみが成功し、その後全ての攻撃が検出され停止される。
しかし、この情報交換にはさまざまな基準があるが、多くは記事やブログ投稿で標準化されていない方法で共有されている。
手動で複数のオンラインポータルやニュースページをスキャンして新しい脅威を発見し、それらを抽出するのは時間がかかります。
このスキャンプロセスの一部を自動化するために,複数の論文が自然言語処理(NLP)を用いて文書から妥協の指標(IOC)を抽出する抽出器を提案する。
しかし、これは文書から情報を抽出する問題を既に解決しているが、これらの文書を検索することはめったにない。
本稿では,変換器を用いた双方向エンコーダ表現(BERT)モデルを用いて文書の分類とクローリングパスの動的適応を行うThreatCrawlを提案する。
ThreatCrawlは、IOCコンテンツなどのテキストで名前付けられた特定のタイプのオープンソースインテリジェンス(OSINT)を分類するのは難しいが、関連する文書を見つけ、それに従って修正することができる。
収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports [3.6785107661544805]
我々は、新しいCC-BY-SAライセンスのサイバー脅威レポートであるAnnoCTRを提示する。
レポートはドメインの専門家によって、名前付きエンティティ、時間表現、サイバーセキュリティ特有の概念によって注釈付けされている。
少数のシナリオでは、テキストで明示的にあるいは暗黙的に言及されるMITRE ATT&CKの概念を識別するために、MITRE ATT&CKの概念記述は、データ拡張のトレーニングに有効な情報源であることがわかった。
論文 参考訳(メタデータ) (2024-04-11T14:04:36Z) - IsoEx: an explainable unsupervised approach to process event logs cyber
investigation [0.0]
本稿では,異常および潜在的に問題のあるコマンド行を検出するための新しい手法であるIsoExを提案する。
異常を検出するために、IsoExは高度に敏感かつ軽量な教師なしの異常検出技術を利用する。
論文 参考訳(メタデータ) (2023-06-07T14:22:41Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - ThreatCluster: Threat Clustering for Information Overload Reduction in Computer Emergency Response Teams [0.0]
情報ソースの脅威と多様性はCERTにとって課題となる。
新たな脅威に対応するため、CERTはタイムリーで包括的な方法で情報を集める必要がある。
本稿では,CERTにおける情報過負荷を低減する方法について考察する。
論文 参考訳(メタデータ) (2022-10-25T14:50:11Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - What are the attackers doing now? Automating cyber threat intelligence
extraction from text on pace with the changing threat landscape: A survey [1.1064955465386]
文献から「テキストからのCTI抽出」関連研究を体系的に収集する。
提案するパイプラインのコンテキストで使用するデータソース,テクニック,CTI共有フォーマットを同定する。
論文 参考訳(メタデータ) (2021-09-14T16:38:41Z) - Short Text Classification Approach to Identify Child Sexual Exploitation
Material [4.415977307120616]
本稿では,児童性行為資料(CSEM)ファイルを識別するために,短いテキスト分類に基づく2つのアプローチを提案する。
提案されたソリューションは、すべてのファイルのビジュアルコンテンツに取り組むことなくCSEMを識別するための法執行機関をサポートするための法医学ツールやサービスに統合することができる。
論文 参考訳(メタデータ) (2020-10-29T09:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。