論文の概要: Seeing the Unseen: Rethinking Illicit Promotion Detection with In-Context Learning
- arxiv url: http://arxiv.org/abs/2603.28043v1
- Date: Mon, 30 Mar 2026 05:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.238418
- Title: Seeing the Unseen: Rethinking Illicit Promotion Detection with In-Context Learning
- Title(参考訳): 見えないものを見る: 文脈内学習による不正な促進検出の再考
- Authors: Sangyi Wu, Junpu Guo, Xianghang Mi,
- Abstract要約: 不正なオンラインプロモーションは、検出を避けるために進化する永続的な脅威である。
本稿では,不正なプロモーション検出のための統合フレームワークとして,インコンテキスト学習(ICL)を体系的に研究する。
適切に構成されたICLは22倍のラベル付きサンプルを使用して微調整されたモデルに匹敵する性能を達成する。
- 参考スコア(独自算出の注目度): 0.8729998428218245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Illicit online promotion is a persistent threat that evolves to evade detection. Existing moderation systems remain tethered to platform-specific supervision and static taxonomies, a reactive paradigm that struggles to generalize across domains or uncover novel threats. This paper presents a systematic study of In-Context Learning (ICL) as a unified framework for illicit promotion detection. Through rigorous analysis, we show that properly configured ICL achieves performance comparable to fine-tuned models using 22x fewer labeled examples. We demonstrate three key capabilities: (1) Generalization to unseen threats: ICL generalizes to new illicit categories without category-specific demonstrations, with a performance drop of less than 6% for most evaluated categories. (2) Autonomous discovery: A novel two-stage pipeline distills 2,900 free-form labels into coherent taxonomies, surfacing eight previously undocumented illicit categories such as usury and illegal immigration. (3) Cross-platform generalization: Deployed on 200,000 real-world samples from search engines and Twitter without adaptation, ICL achieves 92.6% accuracy. Furthermore, 61.8% of its uniquely flagged samples correspond to borderline or obfuscated content missed by existing detectors. Our findings position ICL as a new paradigm for content moderation, combining the precision of specialized classifiers with cross-platform generalization and autonomous threat discovery. By shifting to inference-time reasoning, ICL offers a path toward proactively adaptive moderation systems.
- Abstract(参考訳): 不正なオンラインプロモーションは、検出を避けるために進化する永続的な脅威である。
既存のモデレーションシステムは、ドメインをまたいで一般化したり、新たな脅威を明らかにするのに苦労するリアクティブパラダイムである、プラットフォーム固有の監視と静的分類に結びついています。
本稿では,不正なプロモーション検出のための統合フレームワークとして,インコンテキスト学習(ICL)を体系的に研究する。
厳密な解析により、適切に構成されたICLは22倍のラベル付き例を用いて、微調整モデルに匹敵する性能を実現する。
1) 予測できない脅威への一般化: ICLは、カテゴリー固有のデモンストレーションを伴わず、新しい不正なカテゴリに一般化し、ほとんどの評価されたカテゴリでは6%未満のパフォーマンス低下を示す。
2) 自律的な発見: 新たな2段階パイプラインは2,900個の自由形ラベルをコヒーレントな分類体系に蒸留し, 不法移民や不法移民などの未文書の8つの違法なカテゴリーを克服した。
(3)クロスプラットフォームの一般化: 検索エンジンとTwitterから20万件の現実世界のサンプルに適応せずにデプロイされ、ICLは92.6%の精度を達成した。
さらに61.8%のサンプルは、既存の検出器が見逃した境界線や難読化内容に対応している。
本研究は、ICLをコンテンツモデレーションの新しいパラダイムとして位置づけ、特定分類器の精度とクロスプラットフォームの一般化と自律的脅威発見を組み合わせたものである。
推論時間推論に移行することで、ICLは積極的に適応的なモデレーションシステムへの道筋を提供する。
関連論文リスト
- When AI Fails, What Works? A Data-Driven Taxonomy of Real-World AI Risk Mitigation Strategies [0.04736448323490553]
我々は、実世界のAIインシデント報告と緩和行動を分析し、経験的に根ざした分類を導き出す。
メディア報告された9,705件のAIインシデント記事の統合コーパスを用いて、6,893件のテキストから明示的な緩和アクションを抽出する。
分類学では,(1)矯正・規制行動,(2)法・規制強化行動,(3)金融・経済・市場管理,(4)回避・否定の4つの新たなカテゴリーを紹介している。
論文 参考訳(メタデータ) (2026-03-04T16:46:13Z) - ClearGCD: Mitigating Shortcut Learning For Robust Generalized Category Discovery [6.219469635654406]
オープンワールドのシナリオでは、Generalized Category Discovery (GCD)は、ラベルのないデータの中で既知のカテゴリと新しいカテゴリの両方を識別する必要がある。
本稿では,2つの相補的なメカニズムによる非意味的手がかりへの依存を軽減するためのフレームワークであるClearGCDを提案する。
まず、セマンティックビューアライメント(SVA)は、クラス間のパッチ置換を通じて強力な拡張を生成し、弱い拡張を使用してセマンティック一貫性を強制する。
第2に、ショートカット抑制規則化(SSR)は、既知のクラスを整列し、潜在的に新規なクラスを分離することを奨励する適応型プロトタイプバンクを維持している。
論文 参考訳(メタデータ) (2025-11-28T05:42:21Z) - Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models [1.5401871453629499]
本稿では,Large Language Models (LLMs) の汎用的単一ターンジェイルブレイク手法として,敵対詩が機能することを示す。
25のプロプライエタリでオープンウェイトなモデルで、キュレートされた詩的なプロンプトによって高いアタック・サクセス・レート(ASR)が得られ、一部のプロバイダは90%を超えた。
論文 参考訳(メタデータ) (2025-11-19T10:14:08Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations [2.7620215077666557]
現代の検出器は敵の攻撃に弱いことで知られており、パラフレーズは効果的な回避技術として際立っている。
本稿では,まず,標準的な対人訓練の限界を定量化することにより,対人的堅牢性の比較研究を行う。
次に、新しい、はるかに回復力のある検出フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-09-22T13:03:53Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z) - Generative Adversarial Network-Driven Detection of Adversarial Tasks in
Mobile Crowdsensing [5.675436513661266]
クラウドセンシングシステムは、不特定かつユビキタスなプロパティの上に構築されるため、さまざまな攻撃に対して脆弱である。
以前の研究では、GANベースの攻撃は実験的に設計された攻撃サンプルよりも重大な破壊力を示すことが示唆されている。
本稿では,GANモデルを統合することにより,知的に設計された不正なセンシングサービス要求を検出することを目的とする。
論文 参考訳(メタデータ) (2022-02-16T00:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。