論文の概要: Detection of Illicit Content on Online Marketplaces using Large Language Models
- arxiv url: http://arxiv.org/abs/2603.04707v1
- Date: Thu, 05 Mar 2026 01:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.017866
- Title: Detection of Illicit Content on Online Marketplaces using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたオンラインマーケットプレースにおける不正コンテンツの検出
- Authors: Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson,
- Abstract要約: 本研究では,Large Language Models (LLMs) の不正なオンラインマーケットプレースコンテンツの検出と分類における有効性について検討する。
LLMは、基本的なトランスフォーマーベースモデル(BERT)と従来の機械学習ベースラインに対してベンチマークされた。
Llama 3.2は、40の特定の不正なカテゴリを含む複雑で不均衡なマルチクラス分類において、すべてのベースラインモデルを大きく上回った。
- 参考スコア(独自算出の注目度): 3.6275547549769507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online marketplaces, while revolutionizing global commerce, have inadvertently facilitated the proliferation of illicit activities, including drug trafficking, counterfeit sales, and cybercrimes. Traditional content moderation methods such as manual reviews and rule-based automated systems struggle with scalability, dynamic obfuscation techniques, and multilingual content. Conventional machine learning models, though effective in simpler contexts, often falter when confronting the semantic complexities and linguistic nuances characteristic of illicit marketplace communications. This research investigates the efficacy of Large Language Models (LLMs), specifically Meta's Llama 3.2 and Google's Gemma 3, in detecting and classifying illicit online marketplace content using the multilingual DUTA10K dataset. Employing fine-tuning techniques such as Parameter-Efficient Fine-Tuning (PEFT) and quantization, these models were systematically benchmarked against a foundational transformer-based model (BERT) and traditional machine learning baselines (Support Vector Machines and Naive Bayes). Experimental results reveal a task-dependent advantage for LLMs. In binary classification (illicit vs. non-illicit), Llama 3.2 demonstrated performance comparable to traditional methods. However, for complex, imbalanced multi-class classification involving 40 specific illicit categories, Llama 3.2 significantly surpassed all baseline models. These findings offer substantial practical implications for enhancing online safety, equipping law enforcement agencies, e-commerce platforms, and cybersecurity specialists with more effective, scalable, and adaptive tools for illicit content detection and moderation.
- Abstract(参考訳): オンラインマーケットプレイスは、グローバルコマースに革命をもたらす一方で、麻薬密売、偽造販売、サイバー犯罪などの違法行為の拡散を必然的に促進している。
手動レビューやルールベースの自動システムといった従来のコンテンツモデレーション手法は、スケーラビリティ、動的難読化技術、多言語コンテンツに苦慮している。
従来の機械学習モデルは、より単純な文脈で効果的であるが、しばしば、不正な市場コミュニケーションに特徴的な意味論的複雑さと言語的ニュアンスに直面すると混乱する。
本研究では,多言語DUTA10Kデータセットを用いた不正なオンラインマーケットプレイスコンテンツの検出と分類において,特にMetaのLlama 3.2とGoogleのGemma 3の有効性について検討する。
パラメータ効率のよいファインチューニング(PEFT)や量子化といった微調整技術を用いて、これらのモデルは基盤となるトランスフォーマーベースモデル(BERT)と従来の機械学習ベースライン(Support Vector Machines と Naive Bayes)に対して体系的にベンチマークされた。
実験結果から,LLMのタスク依存的優位性が示された。
バイナリ分類(イリシット対非イリシット)では、Llama 3.2は従来の手法に匹敵する性能を示した。
しかし、40の特定の不正カテゴリを含む複雑な不均衡な多クラス分類では、Llama 3.2は全てのベースラインモデルを大きく上回った。
これらの発見は、オンラインの安全性の向上、法執行機関、電子商取引プラットフォーム、および不正なコンテンツ検出とモデレーションのためのより効果的でスケーラブルで適応的なツールを備えたサイバーセキュリティスペシャリストに、実質的な意味を与えてくれる。
関連論文リスト
- Compass-Embedding v4: Robust Contrastive Learning for Multilingual E-commerce Embeddings [12.049937870582113]
本稿では,東南アジア(SEA)のeコマースシナリオに特化して最適化された高効率多言語埋め込みフレームワークを提案する。
Compass-Embedding v4は3つの課題に対処する。
我々は,コンテキスト基底合成データ生成,言語間翻訳,構造化されたeコマースデータ構築を通じて,多様な学習コーパスを構築する。
論文 参考訳(メタデータ) (2025-12-25T13:41:53Z) - A Data-Centric Approach to Multilingual E-Commerce Product Search: Case Study on Query-Category and Query-Item Relevance [4.017203385311908]
複数言語によるeコマース検索は、言語間で深刻なデータ不均衡に悩まされている。
2つのコアタスクのパフォーマンスを向上させるために,実用的で,アーキテクチャに依存しない,データ中心のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-24T17:27:35Z) - A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。
モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。
本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-08-20T19:49:59Z) - EVADE: Multimodal Benchmark for Evasive Content Detection in E-Commerce Applications [24.832537917472894]
EVADEは、eコマースにおける回避コンテンツ検出の基礎モデルを評価するために設計された、最初の専門家による、中国のマルチモーダルベンチマークである。
データセットには、2,833の注釈付きテキストサンプルと、6つの要求のある製品カテゴリにまたがる13,961のイメージが含まれている。
論文 参考訳(メタデータ) (2025-05-23T09:18:01Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Extreme Speech Classification in the Era of LLMs: Exploring Open-Source and Proprietary Models [0.30693357740321775]
ChatGPTはLarge Language Models (LLMs)の潜在的な応用に世界的な注目を集めている。
我々は、Maronikolakis et al. (2022) の極端な音声データセットのインドのサブセットを活用し、LLMを用いた効果的な分類フレームワークを開発する。
我々は,オープンソースLlamaモデルをオープンソースOpenAIモデルと比較し,事前学習したLLMは適度な有効性を示すが,ドメイン固有データによる微調整は性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-02-21T02:31:05Z) - Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
JoLAは既存のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-02-03T09:13:09Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。