論文の概要: ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain
- arxiv url: http://arxiv.org/abs/2304.11960v2
- Date: Wed, 26 Apr 2023 13:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 10:54:18.593674
- Title: ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain
- Title(参考訳): threatcrawl:サイバーセキュリティドメインのためのbertベースの集中クローラ
- Authors: Philipp Kuehn, Mike Schmidt, Markus Bayer, Christian Reuter
- Abstract要約: ThreatCrawlと呼ばれる新しい集中クローラが提案されている。
BiBERTベースのモデルを使用して文書を分類し、クローリングパスを動的に適応する。
収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Publicly available information contains valuable information for Cyber Threat
Intelligence (CTI). This can be used to prevent attacks that have already taken
place on other systems. Ideally, only the initial attack succeeds and all
subsequent ones are detected and stopped. But while there are different
standards to exchange this information, a lot of it is shared in articles or
blog posts in non-standardized ways. Manually scanning through multiple online
portals and news pages to discover new threats and extracting them is a
time-consuming task. To automize parts of this scanning process, multiple
papers propose extractors that use Natural Language Processing (NLP) to extract
Indicators of Compromise (IOCs) from documents. However, while this already
solves the problem of extracting the information out of documents, the search
for these documents is rarely considered. In this paper, a new focused crawler
is proposed called ThreatCrawl, which uses Bidirectional Encoder
Representations from Transformers (BERT)-based models to classify documents and
adapt its crawling path dynamically. While ThreatCrawl has difficulties to
classify the specific type of Open Source Intelligence (OSINT) named in texts,
e.g., IOC content, it can successfully find relevant documents and modify its
path accordingly. It yields harvest rates of up to 52%, which are, to the best
of our knowledge, better than the current state of the art.
- Abstract(参考訳): 公開情報にはサイバー脅威情報(CTI)の貴重な情報が含まれている。
これは、他のシステムですでに発生した攻撃を防ぐために使用できる。
理想的には、最初の攻撃のみが成功し、その後全ての攻撃が検出され停止される。
しかし、この情報交換にはさまざまな基準があるが、多くは記事やブログ投稿で標準化されていない方法で共有されている。
手動で複数のオンラインポータルやニュースページをスキャンして新しい脅威を発見し、それらを抽出するのは時間がかかります。
このスキャンプロセスの一部を自動化するために,複数の論文が自然言語処理(NLP)を用いて文書から妥協の指標(IOC)を抽出する抽出器を提案する。
しかし、これは文書から情報を抽出する問題を既に解決しているが、これらの文書を検索することはめったにない。
本稿では,変換器を用いた双方向エンコーダ表現(BERT)モデルを用いて文書の分類とクローリングパスの動的適応を行うThreatCrawlを提案する。
ThreatCrawlは、IOCコンテンツなどのテキストで名前付けられた特定のタイプのオープンソースインテリジェンス(OSINT)を分類するのは難しいが、関連する文書を見つけ、それに従って修正することができる。
収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。
関連論文リスト
- IsoEx: an explainable unsupervised approach to process event logs cyber
investigation [0.0]
本稿では,異常および潜在的に問題のあるコマンド行を検出するための新しい手法であるIsoExを提案する。
異常を検出するために、IsoExは高度に敏感かつ軽量な教師なしの異常検出技術を利用する。
論文 参考訳(メタデータ) (2023-06-07T14:22:41Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [64.5769639710927]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - BERT Rankers are Brittle: a Study using Adversarial Document
Perturbations [3.6704226968275258]
BERTに基づくコンテキストランキングモデルは、幅広いパスと文書ランキングタスクに対して十分に確立されている。
我々は、BERT-rankersは、検索された文書をターゲットとした敵攻撃には無害であると主張している。
論文 参考訳(メタデータ) (2022-06-23T14:16:48Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - What are the attackers doing now? Automating cyber threat intelligence
extraction from text on pace with the changing threat landscape: A survey [1.1064955465386]
文献から「テキストからのCTI抽出」関連研究を体系的に収集する。
提案するパイプラインのコンテキストで使用するデータソース,テクニック,CTI共有フォーマットを同定する。
論文 参考訳(メタデータ) (2021-09-14T16:38:41Z) - EXTRACTOR: Extracting Attack Behavior from Threat Reports [6.471387545969443]
本稿では,ctiレポートから簡潔な攻撃行動を自動的に抽出するプロヴァンサと呼ばれる新しい手法とツールを提案する。
provenanceORはテキストに対して強い仮定をしておらず、非構造化テキストから攻撃行動をグラフとして抽出することができる。
この評価結果から,CTIレポートから簡潔なグラフを抽出し,サイバー分析ツールで脅威ハンティングに活用できることが示された。
論文 参考訳(メタデータ) (2021-04-17T18:51:00Z) - Short Text Classification Approach to Identify Child Sexual Exploitation
Material [4.415977307120616]
本稿では,児童性行為資料(CSEM)ファイルを識別するために,短いテキスト分類に基づく2つのアプローチを提案する。
提案されたソリューションは、すべてのファイルのビジュアルコンテンツに取り組むことなくCSEMを識別するための法執行機関をサポートするための法医学ツールやサービスに統合することができる。
論文 参考訳(メタデータ) (2020-10-29T09:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。