論文の概要: ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain
- arxiv url: http://arxiv.org/abs/2304.11960v2
- Date: Wed, 26 Apr 2023 13:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 10:54:18.593674
- Title: ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain
- Title(参考訳): threatcrawl:サイバーセキュリティドメインのためのbertベースの集中クローラ
- Authors: Philipp Kuehn, Mike Schmidt, Markus Bayer, Christian Reuter
- Abstract要約: ThreatCrawlと呼ばれる新しい集中クローラが提案されている。
BiBERTベースのモデルを使用して文書を分類し、クローリングパスを動的に適応する。
収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Publicly available information contains valuable information for Cyber Threat
Intelligence (CTI). This can be used to prevent attacks that have already taken
place on other systems. Ideally, only the initial attack succeeds and all
subsequent ones are detected and stopped. But while there are different
standards to exchange this information, a lot of it is shared in articles or
blog posts in non-standardized ways. Manually scanning through multiple online
portals and news pages to discover new threats and extracting them is a
time-consuming task. To automize parts of this scanning process, multiple
papers propose extractors that use Natural Language Processing (NLP) to extract
Indicators of Compromise (IOCs) from documents. However, while this already
solves the problem of extracting the information out of documents, the search
for these documents is rarely considered. In this paper, a new focused crawler
is proposed called ThreatCrawl, which uses Bidirectional Encoder
Representations from Transformers (BERT)-based models to classify documents and
adapt its crawling path dynamically. While ThreatCrawl has difficulties to
classify the specific type of Open Source Intelligence (OSINT) named in texts,
e.g., IOC content, it can successfully find relevant documents and modify its
path accordingly. It yields harvest rates of up to 52%, which are, to the best
of our knowledge, better than the current state of the art.
- Abstract(参考訳): 公開情報にはサイバー脅威情報(CTI)の貴重な情報が含まれている。
これは、他のシステムですでに発生した攻撃を防ぐために使用できる。
理想的には、最初の攻撃のみが成功し、その後全ての攻撃が検出され停止される。
しかし、この情報交換にはさまざまな基準があるが、多くは記事やブログ投稿で標準化されていない方法で共有されている。
手動で複数のオンラインポータルやニュースページをスキャンして新しい脅威を発見し、それらを抽出するのは時間がかかります。
このスキャンプロセスの一部を自動化するために,複数の論文が自然言語処理(NLP)を用いて文書から妥協の指標(IOC)を抽出する抽出器を提案する。
しかし、これは文書から情報を抽出する問題を既に解決しているが、これらの文書を検索することはめったにない。
本稿では,変換器を用いた双方向エンコーダ表現(BERT)モデルを用いて文書の分類とクローリングパスの動的適応を行うThreatCrawlを提案する。
ThreatCrawlは、IOCコンテンツなどのテキストで名前付けられた特定のタイプのオープンソースインテリジェンス(OSINT)を分類するのは難しいが、関連する文書を見つけ、それに従って修正することができる。
収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。
関連論文リスト
- Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Model Inversion Attacks: A Survey of Approaches and Countermeasures [59.986922963781]
近年、新しいタイプのプライバシ攻撃であるモデル反転攻撃(MIA)は、トレーニングのためのプライベートデータの機密性を抽出することを目的としている。
この重要性にもかかわらず、総合的な概要とMIAに関する深い洞察を提供する体系的な研究が欠如している。
本調査は、攻撃と防御の両方において、最新のMIA手法を要約することを目的としている。
論文 参考訳(メタデータ) (2024-11-15T08:09:28Z) - AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports [3.6785107661544805]
我々は、新しいCC-BY-SAライセンスのサイバー脅威レポートであるAnnoCTRを提示する。
レポートはドメインの専門家によって、名前付きエンティティ、時間表現、サイバーセキュリティ特有の概念によって注釈付けされている。
少数のシナリオでは、テキストで明示的にあるいは暗黙的に言及されるMITRE ATT&CKの概念を識別するために、MITRE ATT&CKの概念記述は、データ拡張のトレーニングに有効な情報源であることがわかった。
論文 参考訳(メタデータ) (2024-04-11T14:04:36Z) - On the Security Risks of Knowledge Graph Reasoning [71.64027889145261]
我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。
我々は、このような脅威をインスタンス化する新しいタイプの攻撃であるROARを提示する。
ROARに対する潜在的な対策として,潜在的に有毒な知識のフィルタリングや,対向的な拡張クエリによるトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-05-03T18:47:42Z) - Cybersecurity Threat Hunting and Vulnerability Analysis Using a Neo4j Graph Database of Open Source Intelligence [0.8192907805418583]
本稿では,オープンソースのインテリジェンステキストと他の情報との共有接続によって形成されるNeo4jグラフデータベースを構築するシステムを提案する。
これらの接続は、妥協の可能性のある指標(IPアドレス、ドメイン、ハッシュ、メールアドレス、電話番号など)と、既知のエクスプロイトや技術に関する情報で構成されている。
グラフデータベースには,悪用された既知のCVEへの接続,既知の悪意のあるIPアドレス,マルウェアのハッシュシグネチャという,興味深いコネクションの具体例が3つある。
論文 参考訳(メタデータ) (2023-01-27T22:29:22Z) - Invisible Backdoor Attack with Dynamic Triggers against Person
Re-identification [71.80885227961015]
個人再識別(ReID)は、広範囲の現実世界のアプリケーションで急速に進展しているが、敵攻撃の重大なリスクも生じている。
動的トリガー・インビジブル・バックドア・アタック(DT-IBA)と呼ばれる,ReIDに対する新たなバックドア・アタックを提案する。
本研究は,提案したベンチマークデータセットに対する攻撃の有効性と盗聴性を広範囲に検証し,攻撃に対する防御手法の有効性を評価する。
論文 参考訳(メタデータ) (2022-11-20T10:08:28Z) - What are the attackers doing now? Automating cyber threat intelligence
extraction from text on pace with the changing threat landscape: A survey [1.1064955465386]
文献から「テキストからのCTI抽出」関連研究を体系的に収集する。
提案するパイプラインのコンテキストで使用するデータソース,テクニック,CTI共有フォーマットを同定する。
論文 参考訳(メタデータ) (2021-09-14T16:38:41Z) - Generating Cyber Threat Intelligence to Discover Potential Security
Threats Using Classification and Topic Modeling [6.0897744845912865]
サイバー脅威インテリジェンス(CTI)は、能動的かつ堅牢なメカニズムの1つとして表現されている。
我々のゴールは、異なる教師なしおよび教師なしの学習技術を用いて、ハッカーフォーラムから関連するCTIを特定し、探索することである。
論文 参考訳(メタデータ) (2021-08-16T02:30:29Z) - EXTRACTOR: Extracting Attack Behavior from Threat Reports [6.471387545969443]
本稿では,ctiレポートから簡潔な攻撃行動を自動的に抽出するプロヴァンサと呼ばれる新しい手法とツールを提案する。
provenanceORはテキストに対して強い仮定をしておらず、非構造化テキストから攻撃行動をグラフとして抽出することができる。
この評価結果から,CTIレポートから簡潔なグラフを抽出し,サイバー分析ツールで脅威ハンティングに活用できることが示された。
論文 参考訳(メタデータ) (2021-04-17T18:51:00Z) - A System for Automated Open-Source Threat Intelligence Gathering and
Management [53.65687495231605]
SecurityKGはOSCTIの収集と管理を自動化するシステムである。
AIとNLP技術を組み合わせて、脅威行動に関する高忠実な知識を抽出する。
論文 参考訳(メタデータ) (2021-01-19T18:31:35Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。