論文の概要: Multi-Lingual Cyber Threat Detection in Tweets/X Using ML, DL, and LLM: A Comparative Analysis
- arxiv url: http://arxiv.org/abs/2502.04346v1
- Date: Tue, 04 Feb 2025 03:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:37.603760
- Title: Multi-Lingual Cyber Threat Detection in Tweets/X Using ML, DL, and LLM: A Comparative Analysis
- Title(参考訳): ML, DL, LLMを用いたつぶやき/Xの多言語サイバー脅威検出:比較分析
- Authors: Saydul Akbar Murad, Ashim Dahal, Nick Rahimi,
- Abstract要約: サイバー脅威検出は、今日のデジタル時代において重要な領域となっている。
本研究は,様々な高度なモデルを用いた多言語ツイートによるサイバー脅威検出に焦点を当てた。
ツイートデータセットを英語、中国語、ロシア語、アラビア語の4言語で収集し、ラベル付けしました。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Cyber threat detection has become an important area of focus in today's digital age due to the growing spread of fake information and harmful content on social media platforms such as Twitter (now 'X'). These cyber threats, often disguised within tweets, pose significant risks to individuals, communities, and even nations, emphasizing the need for effective detection systems. While previous research has explored tweet-based threats, much of the work is limited to specific languages, domains, or locations, or relies on single-model approaches, reducing their applicability to diverse real-world scenarios. To address these gaps, our study focuses on multi-lingual tweet cyber threat detection using a variety of advanced models. The research was conducted in three stages: (1) We collected and labeled tweet datasets in four languages English, Chinese, Russian, and Arabic employing both manual and polarity-based labeling methods to ensure high-quality annotations. (2) Each dataset was analyzed individually using machine learning (ML) and deep learning (DL) models to assess their performance on distinct languages. (3) Finally, we combined all four datasets into a single multi-lingual dataset and applied DL and large language model (LLM) architectures to evaluate their efficacy in identifying cyber threats across various languages. Our results show that among machine learning models, Random Forest (RF) attained the highest performance; however, the Bi-LSTM architecture consistently surpassed other DL and LLM architectures across all datasets. These findings underline the effectiveness of Bi-LSTM in multilingual cyber threat detection. The code for this paper can be found at this link: https://github.com/Mmurrad/Tweet-Data-Classification.git.
- Abstract(参考訳): サイバー脅威検出は、Twitter(現在は「X」)のようなソーシャルメディアプラットフォームに偽情報や有害コンテンツが拡散しているため、今日のデジタル時代において重要な領域となっている。
これらのサイバー脅威は、しばしばツイートの中で偽装され、個人、コミュニティ、そして国家に重大なリスクをもたらし、効果的な検知システムの必要性を強調している。
これまでの研究では、ツイートベースの脅威を調査してきたが、作業の多くは特定の言語、ドメイン、場所に限定されている。
これらのギャップに対処するため、我々は様々な高度なモデルを用いた多言語ツイートによるサイバー脅威検出に焦点をあてた。
1) 高品質なアノテーションを保証するために,手動および極性に基づくラベル付け手法を用いて,英語,中国語,ロシア語,アラビア語の4言語でツイートデータセットを収集し,ラベル付けした。
2) 各データセットは機械学習(ML)モデルと深層学習(DL)モデルを用いて個別に分析し,その性能を異なる言語で評価した。
(3) 最後に, 4つのデータセットを1つの多言語データセットに組み合わせ, DLと大規模言語モデル(LLM)アーキテクチャを適用し, 各種言語におけるサイバー脅威の同定の有効性を評価した。
その結果、機械学習モデルの中で、Random Forest(RF)は最高性能を達成したが、Bi-LSTMアーキテクチャは全てのデータセットにまたがる他のDLやLLMアーキテクチャを一貫して上回っていた。
これらの知見は多言語サイバー脅威検出におけるBi-LSTMの有効性を裏付けるものである。
https://github.com/Mmurrad/Tweet-Data-Classification.git.com/https://github.com/Tweet-Data-Classific ation.git
関連論文リスト
- Multilingual Email Phishing Attacks Detection using OSINT and Machine Learning [0.0]
本稿では、オープンソースのインテリジェンス(OSINT)ツールと機械学習(ML)モデルを統合して、多言語データセット間のフィッシング検出を強化する。
NmapとTheHarvesterを用いて、ドメイン名、IPアドレス、オープンポートを含む17の機能を抽出し、検出精度を向上した。
論文 参考訳(メタデータ) (2025-01-15T11:05:25Z) - ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information [29.57708536491853]
大規模かつ高品質な中国語データセットを多次元かつきめ細かい情報で構築するための新しいツールチェーン MDFG-tool を提案する。
我々は,3.8TBの漢文テキスト2.0を公開し,各テキストは品質スコア,ドメインラベル,毒性ラベル,毒性スコアに関連付けられている。
論文 参考訳(メタデータ) (2024-11-29T12:48:49Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z) - Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。