論文の概要: Adversarially Robust Detection of Harmful Online Content: A Computational Design Science Approach
- arxiv url: http://arxiv.org/abs/2512.17367v2
- Date: Thu, 25 Dec 2025 01:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.775467
- Title: Adversarially Robust Detection of Harmful Online Content: A Computational Design Science Approach
- Title(参考訳): 有害オンラインコンテンツの逆ロバスト検出--計算設計科学のアプローチ
- Authors: Yidong Chai, Yi Liu, Mohammadreza Ebrahimi, Weifeng Li, Balaji Padmanabhan,
- Abstract要約: ソーシャルメディアプラットフォームは、ヘイトスピーチ、誤報、過激派レトリックのような有害なコンテンツに悩まされている。
機械学習モデルは、そのようなコンテンツを検出するために広く採用されている。
したがって、敵の堅牢性を高めることが不可欠である。
- 参考スコア(独自算出の注目度): 7.918330138372274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media platforms are plagued by harmful content such as hate speech, misinformation, and extremist rhetoric. Machine learning (ML) models are widely adopted to detect such content; however, they remain highly vulnerable to adversarial attacks, wherein malicious users subtly modify text to evade detection. Enhancing adversarial robustness is therefore essential, requiring detectors that can defend against diverse attacks (generalizability) while maintaining high overall accuracy. However, simultaneously achieving both optimal generalizability and accuracy is challenging. Following the computational design science paradigm, this study takes a sequential approach that first proposes a novel framework (Large Language Model-based Sample Generation and Aggregation, LLM-SGA) by identifying the key invariances of textual adversarial attacks and leveraging them to ensure that a detector instantiated within the framework has strong generalizability. Second, we instantiate our detector (Adversarially Robust Harmful Online Content Detector, ARHOCD) with three novel design components to improve detection accuracy: (1) an ensemble of multiple base detectors that exploits their complementary strengths; (2) a novel weight assignment method that dynamically adjusts weights based on each sample's predictability and each base detector's capability, with weights initialized using domain knowledge and updated via Bayesian inference; and (3) a novel adversarial training strategy that iteratively optimizes both the base detectors and the weight assignor. We addressed several limitations of existing adversarial robustness enhancement research and empirically evaluated ARHOCD across three datasets spanning hate speech, rumor, and extremist content. Results show that ARHOCD offers strong generalizability and improves detection accuracy under adversarial conditions.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、ヘイトスピーチ、誤報、過激派レトリックのような有害なコンテンツに悩まされている。
機械学習(ML)モデルは、そのようなコンテンツを検出するために広く採用されているが、悪意のあるユーザーが検出を避けるためにテキストを微調整する敵攻撃に対して、非常に脆弱なままである。
したがって、敵の堅牢性を高めることが不可欠であり、高い総合的精度を維持しながら、多様な攻撃(一般化可能性)に対して防御できる検知器が必要である。
しかし、最適一般化性と精度の両方を同時に達成することは困難である。
計算設計科学のパラダイムに従って,本研究はまず,テキストの敵対攻撃の鍵的不変性を同定し,それを利用して,フレームワーク内でインスタンス化された検出器が強い一般化性を有することを保証することによって,新しいフレームワーク(Large Language Model-based Sample Generation and Aggregation, LLM-SGA)を提案する。
第2に,本発明では,検出精度を向上させるために,(1)相補的な強度を生かした複数のベース検出器のアンサンブル,(2)各サンプルの予測可能性と各ベース検出器の能力に基づいて動的に重みを調整し,ドメイン知識を用いて初期化してベイズ推論により更新した重みを初期化して,かつ,(3)ベース検出器と重み割り当てを反復的に最適化する新たな逆方向のトレーニング戦略,の3つの新しい設計要素を用いて,検出器をインスタンス化する。
本研究は、ヘイトスピーチ、噂、過激なコンテンツにまたがる3つのデータセットにわたるARHOCDを実証的に評価し、既存の敵の堅牢性向上研究のいくつかの限界に対処した。
その結果,ARHOCDは高い一般化性を示し,対向条件下での検出精度が向上した。
関連論文リスト
- Spoofing-aware Prompt Learning for Unified Physical-Digital Facial Attack Detection [28.74960061024677]
実世界の顔認識システムは、物理的提示攻撃(PA)とデジタル偽造攻撃(DF)の両方に脆弱である
本稿では,迅速な空間における物理的およびデジタル攻撃のための最適化分岐を分離する,SPL-UAD(Spoofing-aware Prompt Learning for Unified Detection)フレームワークを提案する。
大規模UniAttackDataPlusデータセットの実験により,提案手法は攻撃検出タスクの統一化において,大幅な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2025-12-06T09:34:39Z) - Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations [2.7620215077666557]
現代の検出器は敵の攻撃に弱いことで知られており、パラフレーズは効果的な回避技術として際立っている。
本稿では,まず,標準的な対人訓練の限界を定量化することにより,対人的堅牢性の比較研究を行う。
次に、新しい、はるかに回復力のある検出フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-09-22T13:03:53Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Enhancing Infrared Small Target Detection Robustness with Bi-Level
Adversarial Framework [61.34862133870934]
本稿では,異なる汚職の存在下での検出の堅牢性を促進するために,二段階の対向的枠組みを提案する。
我々の手法は広範囲の汚職で21.96%のIOUを著しく改善し、特に一般ベンチマークで4.97%のIOUを推進している。
論文 参考訳(メタデータ) (2023-09-03T06:35:07Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - A Comprehensive Study of the Robustness for LiDAR-based 3D Object
Detectors against Adversarial Attacks [84.10546708708554]
3Dオブジェクト検出器は、セキュリティクリティカルなタスクにおいてますます重要になっている。
敵の攻撃に対する強固さを理解することが不可欠である。
本稿では,LiDARをベースとした3次元検出器の対角攻撃時のロバスト性評価と解析を行った。
論文 参考訳(メタデータ) (2022-12-20T13:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。