論文の概要: Identification of Malicious Posts on the Dark Web Using Supervised Machine Learning
- arxiv url: http://arxiv.org/abs/2511.23183v1
- Date: Fri, 28 Nov 2025 13:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.911804
- Title: Identification of Malicious Posts on the Dark Web Using Supervised Machine Learning
- Title(参考訳): 教師付き機械学習による暗黒Web上の悪意ポストの同定
- Authors: Sebastião Alves de Jesus Filho, Gustavo Di Giovanni Bernardo, Paulo Henrique Ribeiro Gabriel, Bruno Bogaz Zarpelão, Rodrigo Sanches Miani,
- Abstract要約: 本研究は,ブラジルポルトガル語のダークウェブフォーラムから収集したデータにテキストマイニング技術と機械学習を適用し,悪意のある投稿を識別する。
私たちの知る限りでは、この領域でブラジルのポルトガル語コンテンツに焦点を当てた初めての研究である。
LightGBMとTF-IDFを用いた最高の性能モデルは、関連するポストを高精度に検出することができた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the constant growth and increasing sophistication of cyberattacks, cybersecurity can no longer rely solely on traditional defense techniques and tools. Proactive detection of cyber threats has become essential to help security teams identify potential risks and implement effective mitigation measures. Cyber Threat Intelligence (CTI) plays a key role by providing security analysts with evidence-based knowledge about cyber threats. CTI information can be extracted using various techniques and data sources; however, machine learning has proven promising. As for data sources, social networks and online discussion forums are commonly explored. In this study, we apply text mining techniques and machine learning to data collected from Dark Web forums in Brazilian Portuguese to identify malicious posts. Our contributions include the creation of three original datasets, a novel multi-stage labeling process combining indicators of compromise (IoCs), contextual keywords, and manual analysis, and a comprehensive evaluation of text representations and classifiers. To our knowledge, this is the first study to focus specifically on Brazilian Portuguese content in this domain. The best-performing model, using LightGBM and TF-IDF, was able to detect relevant posts with high accuracy. We also applied topic modeling to validate the model's outputs on unlabeled data, confirming its robustness in real-world scenarios.
- Abstract(参考訳): サイバー攻撃の継続的な成長と高度化を考えると、サイバーセキュリティはもはや従来の防衛技術やツールにのみ依存することはできない。
サイバー脅威の積極的な検出は、セキュリティチームが潜在的なリスクを特定し、効果的な緩和措置を実施するのを助けるために欠かせないものとなっている。
サイバー脅威インテリジェンス(CTI)は、サイバー脅威に関するエビデンスベースの知識をセキュリティアナリストに提供することで重要な役割を果たす。
CTI情報は様々な技術やデータソースを用いて抽出することができるが、機械学習は有望であることが証明されている。
データソースに関しては、ソーシャルネットワークやオンラインディスカッションフォーラムが一般的である。
本研究では,ブラジルポルトガル語のダークウェブフォーラムから収集したデータにテキストマイニング技術と機械学習を適用し,悪意のある投稿を識別する。
コントリビューションには、3つのオリジナルデータセットの作成、妥協の指標(IoC)と文脈キーワード、手動分析を組み合わせた新しい多段階ラベリングプロセス、テキスト表現と分類器の包括的な評価が含まれる。
私たちの知る限りでは、この領域でブラジルのポルトガル語コンテンツに焦点を当てた初めての研究である。
LightGBMとTF-IDFを用いた最高の性能モデルは、関連するポストを高精度に検出することができた。
また、実世界のシナリオにおけるロバスト性を確認し、ラベルのないデータに対するモデルの出力を検証するためにトピックモデリングを適用した。
関連論文リスト
- False Alarms, Real Damage: Adversarial Attacks Using LLM-based Models on Text-based Cyber Threat Intelligence Systems [1.4932549821542682]
サイバー脅威インテリジェンス(CTI)は、サイバー脅威ライフサイクルの初期段階で機能する重要な補完的アプローチとして登場した。
大量のデータがあるため、機械学習(ML)と自然言語処理(NLP)モデルによる自動化は、効果的なCTI抽出に不可欠である。
本研究は,CTIパイプライン全体を構成する各種コンポーネントの脆弱性と敵攻撃に対する感受性について検討した。
論文 参考訳(メタデータ) (2025-07-05T19:00:27Z) - Technique Inference Engine: A Recommender Model to Support Cyber Threat Hunting [0.6990493129893112]
サイバー脅威ハンティングは、ネットワーク内の潜伏脅威を積極的に探すプラクティスである。
キャンペーンの一部として同時に発生する可能性のあるテクニックを特定する上で,アナリストを支援するために,Technology Inference Engineを提案する。
論文 参考訳(メタデータ) (2025-03-04T22:31:43Z) - CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI知識抽出法は柔軟性と一般化性に欠ける。
我々は,データ効率の高いCTI知識抽出と高品質サイバーセキュリティ知識グラフ(CSKG)構築のための新しいフレームワークであるCTINexusを提案する。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - KGV: Integrating Large Language Models with Knowledge Graphs for Cyber Threat Intelligence Credibility Assessment [38.312774244521]
サイバー脅威インテリジェンス(サイバー脅威インテリジェンス、CTI)は、高度で組織化され、兵器化されたサイバー攻撃を防ぐ重要なツールである。
本稿では,大規模言語モデル (LLM) と単純な構造化知識グラフ (KG) を統合し,CTIの信頼性自動評価を行う最初のフレームワークである知識グラフベース検証(KGV)を提案する。
実験の結果,我々のKGVはCTI-200データセット上で最先端の事実推論手法より優れており,F1は5.7%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-15T11:32:46Z) - Graph Mining for Cybersecurity: A Survey [61.505995908021525]
マルウェア、スパム、侵入などのサイバー攻撃の爆発的な増加は、社会に深刻な影響をもたらした。
従来の機械学習(ML)ベースの手法は、サイバー脅威の検出に広く用いられているが、現実のサイバーエンティティ間の相関をモデル化することはほとんどない。
グラフマイニング技術の普及に伴い、サイバーエンティティ間の相関を捉え、高いパフォーマンスを達成するために、多くの研究者がこれらの手法を調査した。
論文 参考訳(メタデータ) (2023-04-02T08:43:03Z) - Exploring the Limits of Transfer Learning with Unified Model in the
Cybersecurity Domain [17.225973170682604]
生成型マルチタスクモデル Unified Text-to-Text Cybersecurity (UTS) を導入する。
UTSはマルウェアレポート、フィッシングサイトURL、プログラミングコード構造、ソーシャルメディアデータ、ブログ、ニュース記事、フォーラムの投稿で訓練されている。
UTSはいくつかのサイバーセキュリティデータセットの性能を改善している。
論文 参考訳(メタデータ) (2023-02-20T22:21:26Z) - Towards Automated Classification of Attackers' TTPs by combining NLP
with ML Techniques [77.34726150561087]
我々は,NLP(Natural Language Processing)と,研究におけるセキュリティ情報抽出に使用される機械学習技術の評価と比較を行った。
本研究では,攻撃者の戦術や手法に従って非構造化テキストを自動的に分類するデータ処理パイプラインを提案する。
論文 参考訳(メタデータ) (2022-07-18T09:59:21Z) - Generating Cyber Threat Intelligence to Discover Potential Security
Threats Using Classification and Topic Modeling [6.0897744845912865]
サイバー脅威インテリジェンス(CTI)は、能動的かつ堅牢なメカニズムの1つとして表現されている。
我々のゴールは、異なる教師なしおよび教師なしの学習技術を用いて、ハッカーフォーラムから関連するCTIを特定し、探索することである。
論文 参考訳(メタデータ) (2021-08-16T02:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。