論文の概要: A Language Model-Driven Semi-Supervised Ensemble Framework for Illicit Market Detection Across Deep/Dark Web and Social Platforms
- arxiv url: http://arxiv.org/abs/2507.22912v1
- Date: Sat, 19 Jul 2025 05:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.930836
- Title: A Language Model-Driven Semi-Supervised Ensemble Framework for Illicit Market Detection Across Deep/Dark Web and Social Platforms
- Title(参考訳): ディープ/ダークウェブとソーシャルプラットフォーム間の市場不特定のための言語モデル駆動セミスーパービジョン・アンサンブル・フレームワーク
- Authors: Navid Yazdanjue, Morteza Rakhshaninejad, Hossein Yazdanjouei, Mohammad Sadegh Khorshidi, Mikko S. Niemela, Fang Chen, Amir H. Gandomi,
- Abstract要約: 本稿では,微調整言語モデルと半教師付きアンサンブル学習戦略を組み合わせた階層型分類フレームワークを提案する。
深層WebページやTelegramチャネル,Subreddits,Pastebinペーストから,ドメイン固有のデータを微調整したModernBERTを用いて意味表現を抽出する。
文書構造、Bitcoinアドレス、Eメール、IP、メタデータなどの組み込みパターンなど、手動で設計した機能を導入しています。
- 参考スコア(独自算出の注目度): 9.521604326086608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Illegal marketplaces have increasingly shifted to concealed parts of the internet, including the deep and dark web, as well as platforms such as Telegram, Reddit, and Pastebin. These channels enable the anonymous trade of illicit goods including drugs, weapons, and stolen credentials. Detecting and categorizing such content remains challenging due to limited labeled data, the evolving nature of illicit language, and the structural heterogeneity of online sources. This paper presents a hierarchical classification framework that combines fine-tuned language models with a semi-supervised ensemble learning strategy to detect and classify illicit marketplace content across diverse platforms. We extract semantic representations using ModernBERT, a transformer model for long documents, finetuned on domain-specific data from deep and dark web pages, Telegram channels, Subreddits, and Pastebin pastes to capture specialized jargon and ambiguous linguistic patterns. In addition, we incorporate manually engineered features such as document structure, embedded patterns including Bitcoin addresses, emails, and IPs, and metadata, which complement language model embeddings. The classification pipeline operates in two stages. The first stage uses a semi-supervised ensemble of XGBoost, Random Forest, and SVM with entropy-based weighted voting to detect sales-related documents. The second stage further classifies these into drug, weapon, or credential sales. Experiments on three datasets, including our multi-source corpus, DUTA, and CoDA, show that our model outperforms several baselines, including BERT, ModernBERT, DarkBERT, ALBERT, Longformer, and BigBird. The model achieves an accuracy of 0.96489, an F1-score of 0.93467, and a TMCC of 0.95388, demonstrating strong generalization, robustness under limited supervision, and effectiveness in real-world illicit content detection.
- Abstract(参考訳): Illegalのマーケットプレースは、ディープウェブやダークウェブ、Telegram、Reddit、Pastebinなどのプラットフォームなど、インターネットの隠れた部分へとシフトしつつある。
これらのチャンネルは、麻薬、武器、盗品を含む違法商品の匿名取引を可能にする。
このようなコンテンツの検出と分類は、限られたラベル付きデータ、不正言語の進化する性質、およびオンラインソースの構造的不均一性により、依然として困難なままである。
本稿では,細調整言語モデルと半教師付きアンサンブル学習戦略を組み合わせた階層型分類フレームワークを提案する。
長い文書の変換モデルであるModernBERTを用いて意味表現を抽出し、深いWebページ、Telegramチャンネル、Subreddits、Pastebinペーストからドメイン固有のデータを微調整し、専門用語やあいまいな言語パターンを抽出する。
さらに、文書構造、Bitcoinアドレス、Eメール、IP、メタデータなどの組み込みパターン、言語モデルの埋め込みを補完するメタデータなどの手作業による機能も組み込んでいます。
分類パイプラインは2段階に分かれている。
第1ステージでは、XGBoost、Random Forest、SVMの半教師付きアンサンブルを使用して、エントロピーベースの重み付き投票を行い、販売関連の文書を検出する。
第2段階はさらに、これらを薬物、武器、信用販売に分類する。
マルチソースコーパス、DUTA、CoDAを含む3つのデータセットの実験では、私たちのモデルはBERT、ModernBERT、DarkBERT、ALBERT、Longformer、BigBirdなど、いくつかのベースラインよりも優れています。
このモデルは、0.96489の精度、0.93467のF1スコア、0.95388のTMCCを達成し、強力な一般化、限られた監督下での堅牢性、実世界の違法コンテンツ検出における有効性を示す。
関連論文リスト
- TWSSenti: A Novel Hybrid Framework for Topic-Wise Sentiment Analysis on Social Media Using Transformer Models [0.0]
本研究では,感情分類の精度と頑健性を改善するために,トランスフォーマーモデルを組み合わせたハイブリッドフレームワークについて検討する。
このフレームワークは、ノイズの多いデータ、コンテキストのあいまいさ、さまざまなデータセット間の一般化といった課題に対処する。
この研究は、ソーシャルメディアのモニタリング、顧客感情分析、世論の追跡など、現実世界のタスクへの適用性を強調している。
論文 参考訳(メタデータ) (2025-04-14T05:44:11Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Illicit Darkweb Classification via Natural-language Processing:
Classifying Illicit Content of Webpages based on Textual Information [4.005483185111992]
本研究は, 不正行為分類の文脈において, 過去の業務を拡大することを目的としている。
113995の玉ねぎサイトとダークマーケットプレースの異種データセットを作成しました。
ダークウェブ上の違法なコンテンツと、特定の種類の薬物を識別するための2つの違法な行動分類手法を開発した。
論文 参考訳(メタデータ) (2023-12-08T10:19:48Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - T-BERT -- Model for Sentiment Analysis of Micro-blogs Integrating Topic
Model and BERT [0.0]
生のライブデータセットからの感情分類タスクにおけるBERT(Bidirectional Representations from Transformers)の有効性を示す。
T-BERT フレームワークは、潜在トピックとコンテキスト BERT 埋め込みを組み合わせることで得られる性能向上を示す。
論文 参考訳(メタデータ) (2021-06-02T12:01:47Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。