論文の概要: Automated Classification of Cybercrime Complaints using Transformer-based Language Models for Hinglish Texts
- arxiv url: http://arxiv.org/abs/2412.16614v1
- Date: Sat, 21 Dec 2024 13:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:12.661560
- Title: Automated Classification of Cybercrime Complaints using Transformer-based Language Models for Hinglish Texts
- Title(参考訳): 変圧器を用いたヒンジリッシュテキストの言語モデルを用いたサイバー犯罪記述の自動分類
- Authors: Nanda Rani, Divyanshu Singh, Bikash Saha, Sandeep Kumar Shukla,
- Abstract要約: 本稿では,自動サイバー犯罪苦情分類のための枠組みを提案する。
我々は,CyberGuard AI Hackathon 2024において,Indian Cybercrime Coordination Centre(I4C)が提供する実世界のデータセットを採用している。
HingRoBERTaの精度は74.41%、F1スコアは71.49%である。
この作業は、サイバー犯罪の苦情管理における重要なギャップを埋め、現代的なサイバーセキュリティの課題に対して、スケーラブルでプライバシを重視し、適応可能なソリューションを提供する。
- 参考スコア(独自算出の注目度): 3.548191850334861
- License:
- Abstract: The rise in cybercrime and the complexity of multilingual and code-mixed complaints present significant challenges for law enforcement and cybersecurity agencies. These organizations need automated, scalable methods to identify crime types, enabling efficient processing and prioritization of large complaint volumes. Manual triaging is inefficient, and traditional machine learning methods fail to capture the semantic and contextual nuances of textual cybercrime complaints. Moreover, the lack of publicly available datasets and privacy concerns hinder the research to present robust solutions. To address these challenges, we propose a framework for automated cybercrime complaint classification. The framework leverages Hinglish-adapted transformers, such as HingBERT and HingRoBERTa, to handle code-mixed inputs effectively. We employ the real-world dataset provided by Indian Cybercrime Coordination Centre (I4C) during CyberGuard AI Hackathon 2024. We employ GenAI open source model-based data augmentation method to address class imbalance. We also employ privacy-aware preprocessing to ensure compliance with ethical standards while maintaining data integrity. Our solution achieves significant performance improvements, with HingRoBERTa attaining an accuracy of 74.41% and an F1-score of 71.49%. We also develop ready-to-use tool by integrating Django REST backend with a modern frontend. The developed tool is scalable and ready for real-world deployment in platforms like the National Cyber Crime Reporting Portal. This work bridges critical gaps in cybercrime complaint management, offering a scalable, privacy-conscious, and adaptable solution for modern cybersecurity challenges.
- Abstract(参考訳): サイバー犯罪の増加と多言語およびコード混在の苦情の複雑さは、法執行機関やサイバーセキュリティ機関にとって重大な課題となっている。
これらの組織は、犯罪のタイプを特定するための自動化されたスケーラブルな方法を必要としており、大きな苦情量の効率的な処理と優先順位付けを可能にしている。
手動トリアージは非効率であり、従来の機械学習手法では、テキストサイバー犯罪の苦情の意味的および文脈的ニュアンスをキャプチャできない。
さらに、公開データセットやプライバシに関する懸念が欠如しているため、研究は堅牢なソリューションの提供を妨げている。
これらの課題に対処するために,サイバー犯罪の苦情自動分類のための枠組みを提案する。
このフレームワークは、HingBERTやHingRoBERTaといったHinglish対応のトランスフォーマーを利用して、コードミックス入力を効果的に処理する。
我々は,CyberGuard AI Hackathon 2024において,Indian Cybercrime Coordination Centre(I4C)が提供する実世界のデータセットを採用している。
我々は、クラス不均衡に対処するために、GenAIのオープンソースモデルに基づくデータ拡張手法を用いる。
また、プライバシーに配慮した事前処理を採用して、データの整合性を維持しながら倫理基準に準拠しています。
HingRoBERTaの精度は74.41%、F1スコアは71.49%である。
Django RESTバックエンドとモダンなフロントエンドを統合することで、使い勝手の良いツールも開発しています。
開発ツールはスケーラブルで、National Cyber Crime Reporting Portalのようなプラットフォームでの実際のデプロイに対応している。
この作業は、サイバー犯罪の苦情管理における重要なギャップを埋め、現代的なサイバーセキュリティの課題に対して、スケーラブルでプライバシを重視し、適応可能なソリューションを提供する。
関連論文リスト
- Generative AI in Cybersecurity [0.0]
生成人工知能(GAI)は、データ分析、パターン認識、意思決定プロセスの分野を変える上で重要な役割を担っている。
GAIは急速に進歩し、サイバーセキュリティプロトコルや規制フレームワークの現在のペースを超越している。
この研究は、マルウェア生成におけるGAIの高度な利用に対抗するために、より複雑な防衛戦略を積極的に特定し、開発する組織にとって重要な必要性を強調している。
論文 参考訳(メタデータ) (2024-05-02T19:03:11Z) - The Security and Privacy of Mobile Edge Computing: An Artificial Intelligence Perspective [64.36680481458868]
Mobile Edge Computing (MEC)は、クラウドコンピューティングと情報技術(IT)サービスをネットワークのエッジで配信できるようにする新しいコンピューティングパラダイムである。
本稿では,人工知能(AI)の観点からMECのセキュリティとプライバシに関する調査を行う。
新たなセキュリティとプライバシの問題に加えて、AIの観点からの潜在的なソリューションにも重点を置いています。
論文 参考訳(メタデータ) (2024-01-03T07:47:22Z) - Software Repositories and Machine Learning Research in Cyber Security [0.0]
堅牢なサイバーセキュリティ防衛の統合は、ソフトウェア開発のあらゆる段階において不可欠になっている。
ソフトウェア要件プロセスにおけるこれらの初期段階の脆弱性の検出にトピックモデリングと機械学習を活用する試みが実施されている。
論文 参考訳(メタデータ) (2023-11-01T17:46:07Z) - Cyber Sentinel: Exploring Conversational Agents in Streamlining Security Tasks with GPT-4 [0.08192907805418582]
本稿では,タスク指向型サイバーセキュリティ対話システムであるCyber Sentinelを紹介する。
人工知能、サイバーセキュリティ分野の専門知識、リアルタイムデータ分析の融合を具体化し、サイバー敵による多面的課題に対処する。
我々の研究はタスク指向対話システムに対する新しいアプローチであり、即時工学と組み合わせたGPT-4モデルの連鎖の力を活用している。
論文 参考訳(メタデータ) (2023-09-28T13:18:33Z) - Graph Mining for Cybersecurity: A Survey [61.505995908021525]
マルウェア、スパム、侵入などのサイバー攻撃の爆発的な増加は、社会に深刻な影響をもたらした。
従来の機械学習(ML)ベースの手法は、サイバー脅威の検出に広く用いられているが、現実のサイバーエンティティ間の相関をモデル化することはほとんどない。
グラフマイニング技術の普及に伴い、サイバーエンティティ間の相関を捉え、高いパフォーマンスを達成するために、多くの研究者がこれらの手法を調査した。
論文 参考訳(メタデータ) (2023-04-02T08:43:03Z) - Exploring the Limits of Transfer Learning with Unified Model in the
Cybersecurity Domain [17.225973170682604]
生成型マルチタスクモデル Unified Text-to-Text Cybersecurity (UTS) を導入する。
UTSはマルウェアレポート、フィッシングサイトURL、プログラミングコード構造、ソーシャルメディアデータ、ブログ、ニュース記事、フォーラムの投稿で訓練されている。
UTSはいくつかのサイバーセキュリティデータセットの性能を改善している。
論文 参考訳(メタデータ) (2023-02-20T22:21:26Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Towards Automated Classification of Attackers' TTPs by combining NLP
with ML Techniques [77.34726150561087]
我々は,NLP(Natural Language Processing)と,研究におけるセキュリティ情報抽出に使用される機械学習技術の評価と比較を行った。
本研究では,攻撃者の戦術や手法に従って非構造化テキストを自動的に分類するデータ処理パイプラインを提案する。
論文 参考訳(メタデータ) (2022-07-18T09:59:21Z) - Proceedings of the Artificial Intelligence for Cyber Security (AICS)
Workshop at AAAI 2022 [55.573187938617636]
ワークショップは、サイバーセキュリティの問題へのAIの適用に焦点を当てる。
サイバーシステムは大量のデータを生成し、これを効果的に活用することは人間の能力を超えます。
論文 参考訳(メタデータ) (2022-02-28T18:27:41Z) - A Data-Centric Approach to Generate Invariants for a Smart Grid Using
Machine Learning [5.447524543941443]
今回提案された研究は、サイバー攻撃の原因となる可能性のある異常を検出することに焦点を当てている。
これは、植物内のプロセスの物理的挙動を管理する規則を導出することで達成される。
本研究は,生物実験室である機能的スマートパワーグリッドの運用データを用いて実施した。
論文 参考訳(メタデータ) (2022-02-14T14:05:57Z) - A System for Efficiently Hunting for Cyber Threats in Computer Systems
Using Threat Intelligence [78.23170229258162]
ThreatRaptorは、OSCTIを使用してコンピュータシステムにおけるサイバー脅威ハンティングを容易にするシステムです。
ThreatRaptorは、(1)構造化OSCTIテキストから構造化された脅威行動を抽出する非監視で軽量で正確なNLPパイプライン、(2)簡潔で表現力のあるドメイン固有クエリ言語であるTBQLを提供し、悪意のあるシステムアクティビティを探し、(3)抽出された脅威行動からTBQLクエリを自動的に合成するクエリ合成メカニズムを提供する。
論文 参考訳(メタデータ) (2021-01-17T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。