論文の概要: Scraping the Shadows: Deep Learning Breakthroughs in Dark Web Intelligence
- arxiv url: http://arxiv.org/abs/2504.02872v1
- Date: Tue, 01 Apr 2025 16:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:50:10.266387
- Title: Scraping the Shadows: Deep Learning Breakthroughs in Dark Web Intelligence
- Title(参考訳): ダークウェブインテリジェンスにおけるディープラーニングのブレークスルー
- Authors: Ingmar Bakermans, Daniel De Pascale, Gonçalo Marcelino, Giuseppe Cascavilla, Zeno Geradts,
- Abstract要約: 我々はダークネット市場(DNMs)からデータを抽出するフレームワークを開発する。
我々は,3つの最先端な名前付きエンティティ認識(NER)モデルの適用性を評価する。
我々は、モデルをトレーニングし、微調整し、評価するために使用する、新しい注釈付きデータセットを提案する。
- 参考スコア(独自算出の注目度): 0.23301643766310376
- License:
- Abstract: Darknet markets (DNMs) facilitate the trade of illegal goods on a global scale. Gathering data on DNMs is critical to ensuring law enforcement agencies can effectively combat crime. Manually extracting data from DNMs is an error-prone and time-consuming task. Aiming to automate this process we develop a framework for extracting data from DNMs and evaluate the application of three state-of-the-art Named Entity Recognition (NER) models, ELMo-BiLSTM \citep{ShahEtAl2022}, UniversalNER \citep{ZhouEtAl2024}, and GLiNER \citep{ZaratianaEtAl2023}, at the task of extracting complex entities from DNM product listing pages. We propose a new annotated dataset, which we use to train, fine-tune, and evaluate the models. Our findings show that state-of-the-art NER models perform well in information extraction from DNMs, achieving 91% Precision, 96% Recall, and an F1 score of 94%. In addition, fine-tuning enhances model performance, with UniversalNER achieving the best performance.
- Abstract(参考訳): ダークネット市場(DNMs)は、世界規模で違法商品の取引を促進する。
DNMのデータを収集することは、法執行機関が効果的に犯罪と戦えるようにするために重要である。
DNMから手動でデータを抽出することは、エラーを起こしやすく、時間を要するタスクである。
本プロセスの自動化を目的として,DNM からデータを取り出すためのフレームワークを開発し,DNM 製品リストページから複雑なエンティティを抽出する作業において,ELMo-BiLSTM \citep{ShahEtAl2022},UniversalNER \citep{ZhouEtAl2024},GLiNER \citep{ZaratianaEtAl2023} の3つの技術モデル,ELMo-BiLSTM \citep{ShahEtAl2022},UniversalNER \citep{ZhouEtAl2024},GLiNER \citep{ZaratianaEtAl2023} を適用した。
我々は、モデルをトレーニングし、微調整し、評価するために使用する、新しい注釈付きデータセットを提案する。
以上の結果から,DNMsから情報抽出を行い,91%の精度,96%のリコール,94%のF1スコアが得られた。
さらに、微調整によりモデルの性能が向上し、UniversalNERは最高のパフォーマンスを達成した。
関連論文リスト
- Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - NER-to-MRC: Named-Entity Recognition Completely Solving as Machine
Reading Comprehension [29.227500985892195]
NER は NER-to-MRC と呼ばれる機械読解問題である。
我々は NER タスクを MRC で解くのに適した形式に効率よく変換する。
我々は、WNUT-16データセットを最大11.24%改善し、外部データなしで最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-05-06T08:05:22Z) - Practical Knowledge Distillation: Using DNNs to Beat DNNs [8.121769391666547]
データとモデルの蒸留、およびデータのデノイングについて検討する。
これらの技術は、勾配ブースティングモデルと特殊なDNNアーキテクチャの両方を改善する。
産業用エンドツーエンドのMLプラットフォームで毎秒4Mのプロダクション推論を行う場合,データサンプリングに基づくモデルトレーニングワークフローを開発する。
経験的評価により,提案手法の組み合わせは,世界規模で展開されている複数のプロダクションアプリケーションにおいて,先行最良モデルよりもモデル精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-02-23T22:53:02Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks [61.51515750218049]
本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。
小型ソフト・プロンプトのみを訓練するPrompt-based Data Augmentation Model (PromDA)を提案する。
PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。
論文 参考訳(メタデータ) (2022-02-25T05:09:27Z) - DeepSteal: Advanced Model Extractions Leveraging Efficient Weight
Stealing in Memories [26.067920958354]
Deep Neural Networks(DNN)のプライバシに対する大きな脅威の1つは、モデル抽出攻撃である。
最近の研究によると、ハードウェアベースのサイドチャネル攻撃はDNNモデル(例えばモデルアーキテクチャ)の内部知識を明らかにすることができる。
本稿では,メモリサイドチャネル攻撃の助けを借りてDNN重みを効果的に盗む,高度なモデル抽出攻撃フレームワークであるDeepStealを提案する。
論文 参考訳(メタデータ) (2021-11-08T16:55:45Z) - Zero-Resource Multi-Dialectal Arabic Natural Language Understanding [0.0]
本稿では,現代標準アラビア語(MSA)データのみに基づく事前学習言語モデルを微調整する場合に,Dialectal Arabic(DA)のゼロショット性能について検討する。
ラベルなしDAデータによる自己学習を提案し、名前付きエンティティ認識(NER)、POSタグ付け(POS)、SRD(Sarcasm Detection)のコンテキストに適用する。
その結果,未ラベルDAデータを用いた自己学習の有効性が示された。
論文 参考訳(メタデータ) (2021-04-14T02:29:27Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。