論文の概要: Two-step Automated Cybercrime Coded Word Detection using Multi-level Representation Learning
- arxiv url: http://arxiv.org/abs/2403.10838v1
- Date: Sat, 16 Mar 2024 07:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:25:31.304162
- Title: Two-step Automated Cybercrime Coded Word Detection using Multi-level Representation Learning
- Title(参考訳): 多段階表現学習を用いた2段階のサイバー犯罪符号化単語検出
- Authors: Yongyeon Kim, Byung-Won On, Ingyu Lee,
- Abstract要約: ソーシャルネットワークサービスプラットフォームでは、犯罪容疑者はコミュニケーションのためにサイバー犯罪コード付き単語を使用する可能性が高い。
本稿では,5種類のAutoEncoderモデルのうちの1つを用いて,サイバー犯罪毎に平均潜時ベクトルを構築する2段階のアプローチを提案する。
2段階のアプローチにより検出されたサイバー犯罪符号化語を深く理解するために,3つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In social network service platforms, crime suspects are likely to use cybercrime coded words for communication by adding criminal meanings to existing words or replacing them with similar words. For instance, the word 'ice' is often used to mean methamphetamine in drug crimes. To analyze the nature of cybercrime and the behavior of criminals, quickly detecting such words and further understanding their meaning are critical. In the automated cybercrime coded word detection problem, it is difficult to collect a sufficient amount of training data for supervised learning and to directly apply language models that utilize context information to better understand natural language. To overcome these limitations, we propose a new two-step approach, in which a mean latent vector is constructed for each cybercrime through one of five different AutoEncoder models in the first step, and cybercrime coded words are detected based on multi-level latent representations in the second step. Moreover, to deeply understand cybercrime coded words detected through the two-step approach, we propose three novel methods: (1) Detection of new words recently coined, (2) Detection of words frequently appeared in both drug and sex crimes, and (3) Automatic generation of word taxonomy. According to our experimental results, among various AutoEncoder models, the stacked AutoEncoder model shows the best performance. Additionally, the F1-score of the two-step approach is 0.991, which is higher than 0.987 and 0.903 of the existing dark-GloVe and dark-BERT models. By analyzing the experimental results of the three proposed methods, we can gain a deeper understanding of drug and sex crimes.
- Abstract(参考訳): ソーシャルネットワークサービスプラットフォームでは、犯罪容疑者は、既存の単語に犯罪の意味を付加したり、類似した単語で置き換えることで、サイバー犯罪のコード化された単語をコミュニケーションに使用する傾向にある。
例えば、"ice"という言葉は薬物犯罪におけるメタンフェタミンを意味することが多い。
サイバー犯罪の性質や犯罪者の行動を分析し、そのような言葉を迅速に検出し、その意味をさらに理解することが重要である。
自動サイバークレーム符号化語検出問題では、教師あり学習のための十分な量のトレーニングデータを収集し、文脈情報を利用する言語モデルを直接適用して自然言語をよりよく理解することは困難である。
これらの制約を克服するため,第1段階では5つのAutoEncoderモデルのいずれかを用いて,各サイバー犯罪に対して平均潜時ベクトルを構築し,第2段階ではマルチレベル潜時表現に基づいてサイバー犯罪符号化語を検出する2段階の手法を提案する。
さらに,2段階のアプローチで検出されたサイバー犯罪コード化された単語を深く理解するために,(1)最近作られた新しい単語の検出,(2)薬物犯罪と性犯罪の両方に頻繁に現れる単語の検出,(3)単語分類の自動生成という3つの新しい手法を提案する。
実験結果によると、さまざまなAutoEncoderモデルの中で、積み重ねられたAutoEncoderモデルは最高のパフォーマンスを示している。
さらに、2段階のアプローチのF1スコアは0.991であり、既存のDark-GloVeおよびDark-BERTモデルの0.987と0.903よりも高い。
提案した3つの方法の実験結果を解析することにより、薬物犯罪と性犯罪についてより深く理解することができる。
関連論文リスト
- SEMDR: A Semantic-Aware Dual Encoder Model for Legal Judgment Prediction with Legal Clue Tracing [4.756864134579646]
法的判断予測(LJP)は、刑事事実の説明に基づいて法的判断を形成することを目的としている。
研究者たちは、強盗や盗難などの紛らわしい事件を分類するのに苦労している。
本稿では,犯罪事実と楽器のセマンティック・アウェア・デュアルモデル(SEMDR)を提案する。
論文 参考訳(メタデータ) (2024-08-19T06:13:19Z) - SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection [31.464227593768324]
本稿ではセマンティック階層Nexus(SHiNe)について紹介する。
SHiNeは様々な語彙の粒度をまたいだ堅牢性を高め、+31.9%のmAP50と基底的真理階層を達成している。
SHiNeは無訓練で、市販のOvOD検出器とシームレスに統合できる。
論文 参考訳(メタデータ) (2024-05-16T12:42:06Z) - Explain Thyself Bully: Sentiment Aided Cyberbullying Detection with
Explanation [52.3781496277104]
さまざまなソーシャルメディアネットワークやオンラインコミュニケーションアプリの人気により、サイバーいじめが大きな問題になっている。
一般データ保護規則の「説明の権利」のような近年の法律は、解釈可能なモデルの開発に拍車をかけた。
我々は,コード混在言語からの自動サイバーバブル検出のための,mExCBと呼ばれる最初の解釈可能なマルチタスクモデルを開発した。
論文 参考訳(メタデータ) (2024-01-17T07:36:22Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - A Heterogeneous Graph Learning Model for Cyber-Attack Detection [4.559898668629277]
サイバー攻撃は、ハッカーが標的とする情報システムに侵入する悪意のある試みである。
本稿では,証明データに基づく知的サイバー攻撃検出手法を提案する。
実験の結果,提案手法は他の学習ベース検出モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T16:03:39Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Augmenting semantic lexicons using word embeddings and transfer learning [1.101002667958165]
本稿では,単語埋め込みと伝達学習を用いて,感情スコアを比較的低コストで拡張するための2つのモデルを提案する。
評価の結果、両モデルともAmazon Mechanical Turkのレビュアーと同様の精度で新しい単語を採点できるが、コストはごくわずかである。
論文 参考訳(メタデータ) (2021-09-18T20:59:52Z) - Efficient Intent Detection with Dual Sentence Encoders [53.16532285820849]
本稿では,USE や ConveRT などの事前訓練された二重文エンコーダによるインテント検出手法を提案する。
提案するインテント検出器の有用性と適用性を示し,完全なBERT-Largeモデルに基づくインテント検出器よりも優れた性能を示す。
コードだけでなく、新しい挑戦的な単一ドメイン意図検出データセットもリリースしています。
論文 参考訳(メタデータ) (2020-03-10T15:33:54Z) - A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文 参考訳(メタデータ) (2019-12-27T12:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。