論文の概要: Illicit Darkweb Classification via Natural-language Processing:
Classifying Illicit Content of Webpages based on Textual Information
- arxiv url: http://arxiv.org/abs/2312.04944v1
- Date: Fri, 8 Dec 2023 10:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 15:22:56.619666
- Title: Illicit Darkweb Classification via Natural-language Processing:
Classifying Illicit Content of Webpages based on Textual Information
- Title(参考訳): 自然言語処理による暗黒ウェブ分類:テキスト情報に基づくWebページの暗黒コンテンツ分類
- Authors: Giuseppe Cascavilla, Gemma Catolino, Mirella Sangiovanni
- Abstract要約: 本研究は, 不正行為分類の文脈において, 過去の業務を拡大することを目的としている。
113995の玉ねぎサイトとダークマーケットプレースの異種データセットを作成しました。
ダークウェブ上の違法なコンテンツと、特定の種類の薬物を識別するための2つの違法な行動分類手法を開発した。
- 参考スコア(独自算出の注目度): 4.005483185111992
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work aims at expanding previous works done in the context of illegal
activities classification, performing three different steps. First, we created
a heterogeneous dataset of 113995 onion sites and dark marketplaces. Then, we
compared pre-trained transferable models, i.e., ULMFit (Universal Language
Model Fine-tuning), Bert (Bidirectional Encoder Representations from
Transformers), and RoBERTa (Robustly optimized BERT approach) with a
traditional text classification approach like LSTM (Long short-term memory)
neural networks. Finally, we developed two illegal activities classification
approaches, one for illicit content on the Dark Web and one for identifying the
specific types of drugs. Results show that Bert obtained the best approach,
classifying the dark web's general content and the types of Drugs with 96.08%
and 91.98% of accuracy.
- Abstract(参考訳): 本研究は, 違法行為分類の文脈において, 3つのステップを踏襲し, 過去の業務を拡大することを目的とする。
まず、113995のオニオンサイトとダークマーケットの異種データセットを作成しました。
次に,従来のLSTM(Long short-term memory)ニューラルネットワークのようなテキスト分類手法を用いて,事前学習可能なモデルであるULMFit(Universal Language Model Fine-tuning),Bert(Bidirectional Encoder Representations from Transformers),RoBERTa(Robustly Optimization BERT approach)を比較した。
最後に、ダークウェブ上の違法なコンテンツと、特定の種類の薬物を識別する2つの違法な行動分類手法を開発した。
その結果、バートはダークウェブの一般的な内容と薬物の種類を96.08%と91.98%の精度で分類し、最良のアプローチを得た。
関連論文リスト
- Towards Synchronous Memorizability and Generalizability with Site-Modulated Diffusion Replay for Cross-Site Continual Segmentation [50.70671908078593]
本稿では,同期記憶可能性と一般化可能性(SMG-Learning)に学ぶ新しい学習パラダイムを提案する。
我々は,過去の地点での記憶可能性を確保するために方位勾配アライメントと,目に見えない地点での一般化性を高めるために任意の勾配アライメントを作成する。
実験により,本手法は,他の最先端手法よりも,記憶可能性と一般性の両方を効果的に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-26T03:10:57Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - Bengali Intent Classification with Generative Adversarial BERT [0.24578723416255746]
BNIntent30は,30の意図クラスを含むベンガル語意図分類データセットである。
データセットは、150以上のクラスに分類された多様なユーザインテントを含むCLINIC150データセットから抜粋され、翻訳される。
本稿では,GAN-BnBERT を用いたベンガル語意図分類手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T10:45:50Z) - When the Few Outweigh the Many: Illicit Content Recognition with
Few-Shot Learning [0.0]
本稿では,画像から違法行為を認識するための代替手法について検討する。
シームズニューラルネットワークは10クラスのデータセット上で20ショットの実験で90.9%に達する。
論文 参考訳(メタデータ) (2023-11-28T18:28:03Z) - Retrieval and Generative Approaches for a Pregnancy Chatbot in Nepali
with Stemmed and Non-Stemmed Data : A Comparative Study [0.0]
ネパール語のデータセットのパフォーマンスは、それぞれのアプローチで分析されている。
BERTをベースとした事前学習モデルでは,スクラッチトランスフォーマーモデルではスクラッチデータの性能が良好である。
論文 参考訳(メタデータ) (2023-11-12T17:16:46Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - hBert + BiasCorp -- Fighting Racism on the Web [58.768804813646334]
これはfox news、breitbartnews、youtubeの3つの特定のソースから139,090のコメントとニュースを含むデータセットです。
本研究では、hBERT を新しい Hopfield Layer を用いて、予め訓練された BERT モデルの特定の層を修正する。
開発者がwebアプリケーションでトレーニングされたモデルを利用できるようにするため、javascriptライブラリとchrome拡張アプリケーションもリリースしています。
論文 参考訳(メタデータ) (2021-04-06T02:17:20Z) - A Federated Approach for Fine-Grained Classification of Fashion Apparel [4.328969982631974]
本論文は,ファッションアイテム属性の詳細な分類を可能にすることを目的としている。
提案手法は, (a) セマンティックセグメンテーションを用いた入力画像からの対象項目の局所化, (b) 事前学習したCNNとバウンディングボックスを用いた人間のキーポイント(例えば肩の点)の検出, (c) アルゴリズムアプローチとディープニューラルネットワークを組み合わせて属性を分類する3つのフェーズからなる。
論文 参考訳(メタデータ) (2020-08-27T19:44:43Z) - Deep Contextual Embeddings for Address Classification in E-commerce [0.03222802562733786]
インドのような発展途上国のEコマース顧客は、発送先を入力している間、固定フォーマットに従わない傾向にある。
アドレスの言語を理解することは必須であり、出荷を遅延なくルーティングできる。
自然言語処理(NLP)の最近の進歩からモチベーションを導き,顧客アドレスを理解するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-06T19:06:34Z) - Adversarial Feature Hallucination Networks for Few-Shot Learning [84.31660118264514]
Adversarial Feature Hallucination Networks (AFHN) は条件付き Wasserstein Generative Adversarial Network (cWGAN) に基づいている。
合成された特徴の識別性と多様性を促進するために、2つの新規レギュレータがAFHNに組み込まれている。
論文 参考訳(メタデータ) (2020-03-30T02:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。