論文の概要: CTI Dataset Construction from Telegram
- arxiv url: http://arxiv.org/abs/2509.20943v1
- Date: Thu, 25 Sep 2025 09:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.822236
- Title: CTI Dataset Construction from Telegram
- Title(参考訳): テレグラムによるCTIデータセットの構築
- Authors: Dincy R. Arikkat, Sneha B. T., Serena Nicolazzo, Antonino Nocera, Vinod P., Rafidha Rehiman K. A., Karthika R,
- Abstract要約: サイバー脅威インテリジェンス(CTI)は、組織がサイバー脅威を予測し、検出し、進化させることを可能にする。
近年、Telegramは貴重なCTIソースとして有名になり、タイムリーで多様な脅威関連情報を提供している。
本稿では,Telegramから脅威関連コンテンツを体系的に収集・フィルタリングするエンドツーエンドの自動パイプラインを提案する。
- 参考スコア(独自算出の注目度): 2.3600025563528395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cyber Threat Intelligence (CTI) enables organizations to anticipate, detect, and mitigate evolving cyber threats. Its effectiveness depends on high-quality datasets, which support model development, training, evaluation, and benchmarking. Building such datasets is crucial, as attack vectors and adversary tactics continually evolve. Recently, Telegram has gained prominence as a valuable CTI source, offering timely and diverse threat-related information that can help address these challenges. In this work, we address these challenges by presenting an end-to-end automated pipeline that systematically collects and filters threat-related content from Telegram. The pipeline identifies relevant Telegram channels and scrapes 145,349 messages from 12 curated channels out of 150 identified sources. To accurately filter threat intelligence messages from generic content, we employ a BERT-based classifier, achieving an accuracy of 96.64%. From the filtered messages, we compile a dataset of 86,509 malicious Indicators of Compromise, including domains, IPs, URLs, hashes, and CVEs. This approach not only produces a large-scale, high-fidelity CTI dataset but also establishes a foundation for future research and operational applications in cyber threat detection.
- Abstract(参考訳): サイバー脅威インテリジェンス(CTI)は、組織が進化するサイバー脅威を予測、検出、緩和することを可能にする。
その有効性は、モデル開発、トレーニング、評価、ベンチマークをサポートする高品質なデータセットに依存する。
このようなデータセットの構築は、攻撃ベクトルと敵の戦術が継続的に進化するので、非常に重要です。
近年、Telegramは貴重なCTIソースとして有名になり、これらの課題に対処するためのタイムリーで多様な脅威関連情報を提供している。
本研究では,Telegramから脅威関連コンテンツを体系的に収集・フィルタリングするエンドツーエンドの自動パイプラインを提案することで,これらの課題に対処する。
パイプラインはTelegramチャネルを特定し、150の特定ソースのうち12のキュレートされたチャネルから145,349のメッセージをスクラップする。
ジェネリックコンテンツから脅威インテリジェンスメッセージを正確にフィルタリングするために、BERTベースの分類器を使用し、96.64%の精度を達成する。
フィルタリングされたメッセージから、ドメイン、IP、URL、ハッシュ、CVEを含む86,509の悪意のあるCompromiseインデックスのデータセットをコンパイルする。
このアプローチは大規模で高忠実なCTIデータセットを生成するだけでなく、サイバー脅威検出における将来の研究と運用の基盤も確立している。
関連論文リスト
- False Alarms, Real Damage: Adversarial Attacks Using LLM-based Models on Text-based Cyber Threat Intelligence Systems [1.4932549821542682]
サイバー脅威インテリジェンス(CTI)は、サイバー脅威ライフサイクルの初期段階で機能する重要な補完的アプローチとして登場した。
大量のデータがあるため、機械学習(ML)と自然言語処理(NLP)モデルによる自動化は、効果的なCTI抽出に不可欠である。
本研究は,CTIパイプライン全体を構成する各種コンポーネントの脆弱性と敵攻撃に対する感受性について検討した。
論文 参考訳(メタデータ) (2025-07-05T19:00:27Z) - A Multidisciplinary Approach to Telegram Data Analysis [0.0]
本稿では,サイバー脅威に関する早期警戒情報を得るために,Telegramのデータ分析のための多分野的アプローチを提案する。
ニューラルネットワークアーキテクチャと従来の機械学習アルゴリズムを組み合わせています。
我々は、サイバー脅威に対する早期警告システムを強化し、潜在的なセキュリティ侵害に対するより積極的な対応を可能にすることを目指している。
論文 参考訳(メタデータ) (2024-12-29T09:10:52Z) - CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI知識抽出法は柔軟性と一般化性に欠ける。
我々は,データ効率の高いCTI知識抽出と高品質サイバーセキュリティ知識グラフ(CSKG)構築のための新しいフレームワークであるCTINexusを提案する。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - TTPXHunter: Actionable Threat Intelligence Extraction as TTPs from Finished Cyber Threat Reports [3.2183320563774833]
敵の様相を知ることは、組織が効果的な防衛戦略を採用し、コミュニティで知性を共有するのを助ける。
脅威レポートの文で説明されたmodus operandiを解釈し、構造化フォーマットに変換するには、翻訳ツールが必要である。
本研究は、TTPXHunterという手法を用いて、サイバー脅威レポートから脅威情報を自動的に抽出する手法を紹介する。
論文 参考訳(メタデータ) (2024-03-05T19:04:09Z) - NLP-Based Techniques for Cyber Threat Intelligence [13.958337678497163]
脅威知能の文脈で適用されたNLP技術の概要について概説する。
デジタル資産を保護するための主要なツールとして、CTIの基本的定義と原則を説明することから始まる。
その後、WebソースからのCTIデータクローリングのためのNLPベースのテクニック、CTIデータ分析、サイバーセキュリティデータからの関係抽出、CTIの共有とコラボレーション、CTIのセキュリティ脅威の徹底的な調査を行う。
論文 参考訳(メタデータ) (2023-11-15T09:23:33Z) - ThreatKG: An AI-Powered System for Automated Open-Source Cyber Threat Intelligence Gathering and Management [65.0114141380651]
ThreatKGはOSCTIの収集と管理のための自動化システムである。
複数のソースから多数のOSCTIレポートを効率的に収集する。
さまざまな脅威エンティティに関する高品質な知識を抽出するために、AIベースの専門技術を使用する。
論文 参考訳(メタデータ) (2022-12-20T16:13:59Z) - A System for Automated Open-Source Threat Intelligence Gathering and
Management [53.65687495231605]
SecurityKGはOSCTIの収集と管理を自動化するシステムである。
AIとNLP技術を組み合わせて、脅威行動に関する高忠実な知識を抽出する。
論文 参考訳(メタデータ) (2021-01-19T18:31:35Z) - A System for Efficiently Hunting for Cyber Threats in Computer Systems
Using Threat Intelligence [78.23170229258162]
ThreatRaptorは、OSCTIを使用してコンピュータシステムにおけるサイバー脅威ハンティングを容易にするシステムです。
ThreatRaptorは、(1)構造化OSCTIテキストから構造化された脅威行動を抽出する非監視で軽量で正確なNLPパイプライン、(2)簡潔で表現力のあるドメイン固有クエリ言語であるTBQLを提供し、悪意のあるシステムアクティビティを探し、(3)抽出された脅威行動からTBQLクエリを自動的に合成するクエリ合成メカニズムを提供する。
論文 参考訳(メタデータ) (2021-01-17T19:44:09Z) - Enabling Efficient Cyber Threat Hunting With Cyber Threat Intelligence [94.94833077653998]
ThreatRaptorは、オープンソースのCyber Threat Intelligence(OSCTI)を使用して、コンピュータシステムにおける脅威追跡を容易にするシステムである。
構造化されていないOSCTIテキストから構造化された脅威行動を抽出し、簡潔で表現力豊かなドメイン固有クエリ言語TBQLを使用して悪意のあるシステムアクティビティを探索する。
広範囲にわたる攻撃事例の評価は、現実的な脅威狩りにおけるThreatRaptorの精度と効率を実証している。
論文 参考訳(メタデータ) (2020-10-26T14:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。