論文の概要: Adversarially Robust Detection of Harmful Online Content: A Computational Design Science Approach
- arxiv url: http://arxiv.org/abs/2512.17367v1
- Date: Fri, 19 Dec 2025 09:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.317137
- Title: Adversarially Robust Detection of Harmful Online Content: A Computational Design Science Approach
- Title(参考訳): 有害オンラインコンテンツの逆ロバスト検出--計算設計科学のアプローチ
- Authors: Yidong Chai, Yi Liu, Mohammadreza Ebrahimi, Weifeng Li, Balaji Padmanabhan,
- Abstract要約: ソーシャルメディアプラットフォームは、ヘイトスピーチ、誤報、過激派レトリックのような有害なコンテンツに悩まされている。
機械学習モデルは、そのようなコンテンツを検出するために広く採用されている。
したがって、敵の堅牢性を高めることが不可欠である。
- 参考スコア(独自算出の注目度): 7.918330138372274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media platforms are plagued by harmful content such as hate speech, misinformation, and extremist rhetoric. Machine learning (ML) models are widely adopted to detect such content; however, they remain highly vulnerable to adversarial attacks, wherein malicious users subtly modify text to evade detection. Enhancing adversarial robustness is therefore essential, requiring detectors that can defend against diverse attacks (generalizability) while maintaining high overall accuracy. However, simultaneously achieving both optimal generalizability and accuracy is challenging. Following the computational design science paradigm, this study takes a sequential approach that first proposes a novel framework (Large Language Model-based Sample Generation and Aggregation, LLM-SGA) by identifying the key invariances of textual adversarial attacks and leveraging them to ensure that a detector instantiated within the framework has strong generalizability. Second, we instantiate our detector (Adversarially Robust Harmful Online Content Detector, ARHOCD) with three novel design components to improve detection accuracy: (1) an ensemble of multiple base detectors that exploits their complementary strengths; (2) a novel weight assignment method that dynamically adjusts weights based on each sample's predictability and each base detector's capability, with weights initialized using domain knowledge and updated via Bayesian inference; and (3) a novel adversarial training strategy that iteratively optimizes both the base detectors and the weight assignor. We addressed several limitations of existing adversarial robustness enhancement research and empirically evaluated ARHOCD across three datasets spanning hate speech, rumor, and extremist content. Results show that ARHOCD offers strong generalizability and improves detection accuracy under adversarial conditions.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、ヘイトスピーチ、誤報、過激派レトリックのような有害なコンテンツに悩まされている。
機械学習(ML)モデルは、そのようなコンテンツを検出するために広く採用されているが、悪意のあるユーザーが検出を避けるためにテキストを微調整する敵攻撃に対して、非常に脆弱なままである。
したがって、敵の堅牢性を高めることが不可欠であり、高い総合的精度を維持しながら、多様な攻撃(一般化可能性)に対して防御できる検知器が必要である。
しかし、最適一般化性と精度の両方を同時に達成することは困難である。
計算設計科学のパラダイムに従って,本研究はまず,テキストの敵対攻撃の鍵的不変性を同定し,それを利用して,フレームワーク内でインスタンス化された検出器が強い一般化性を有することを保証することによって,新しいフレームワーク(Large Language Model-based Sample Generation and Aggregation, LLM-SGA)を提案する。
第2に,本発明では,検出精度を向上させるために,(1)相補的な強度を生かした複数のベース検出器のアンサンブル,(2)各サンプルの予測可能性と各ベース検出器の能力に基づいて動的に重みを調整し,ドメイン知識を用いて初期化してベイズ推論により更新した重みを初期化して,かつ,(3)ベース検出器と重み割り当てを反復的に最適化する新たな逆方向のトレーニング戦略,の3つの新しい設計要素を用いて,検出器をインスタンス化する。
本研究は、ヘイトスピーチ、噂、過激なコンテンツにまたがる3つのデータセットにわたるARHOCDを実証的に評価し、既存の敵の堅牢性向上研究のいくつかの限界に対処した。
その結果,ARHOCDは高い一般化性を示し,対向条件下での検出精度が向上した。
関連論文リスト
- Benchmarking Adversarial Robustness and Adversarial Training Strategies for Object Detection [24.70528833663651]
物体検出モデルは、自動運転車や知覚に基づくロボットなど、自動システムの重要なコンポーネントである。
これらのモデルの防衛の進歩は、標準化された評価の欠如によって妨げられている分類の遅れを妨げている。
既存の作業では、異なるデータセット、一貫性のない効率指標、様々な摂動コストの測定が使用されているため、攻撃や防御の方法を徹底的に比較することはほぼ不可能である。
論文 参考訳(メタデータ) (2026-02-18T14:33:58Z) - Elevating Intrusion Detection and Security Fortification in Intelligent Networks through Cutting-Edge Machine Learning Paradigms [5.706727902661187]
本研究では,頑健なマルチクラス機械学習による侵入検出フレームワークを提案する。
高度な特徴選択技術を統合して、重要な属性を識別し、冗長性を緩和し、検出精度を向上する。
提案したアンサンブルアーキテクチャは,98%の精度,98%の精度,98%のリコール,2%の偽陽性率で優れた性能を実現する。
論文 参考訳(メタデータ) (2025-12-22T05:14:26Z) - Spoofing-aware Prompt Learning for Unified Physical-Digital Facial Attack Detection [28.74960061024677]
実世界の顔認識システムは、物理的提示攻撃(PA)とデジタル偽造攻撃(DF)の両方に脆弱である
本稿では,迅速な空間における物理的およびデジタル攻撃のための最適化分岐を分離する,SPL-UAD(Spoofing-aware Prompt Learning for Unified Detection)フレームワークを提案する。
大規模UniAttackDataPlusデータセットの実験により,提案手法は攻撃検出タスクの統一化において,大幅な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2025-12-06T09:34:39Z) - Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations [2.7620215077666557]
現代の検出器は敵の攻撃に弱いことで知られており、パラフレーズは効果的な回避技術として際立っている。
本稿では,まず,標準的な対人訓練の限界を定量化することにより,対人的堅牢性の比較研究を行う。
次に、新しい、はるかに回復力のある検出フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-09-22T13:03:53Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Enhancing Infrared Small Target Detection Robustness with Bi-Level
Adversarial Framework [61.34862133870934]
本稿では,異なる汚職の存在下での検出の堅牢性を促進するために,二段階の対向的枠組みを提案する。
我々の手法は広範囲の汚職で21.96%のIOUを著しく改善し、特に一般ベンチマークで4.97%のIOUを推進している。
論文 参考訳(メタデータ) (2023-09-03T06:35:07Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - A Comprehensive Study of the Robustness for LiDAR-based 3D Object
Detectors against Adversarial Attacks [84.10546708708554]
3Dオブジェクト検出器は、セキュリティクリティカルなタスクにおいてますます重要になっている。
敵の攻撃に対する強固さを理解することが不可欠である。
本稿では,LiDARをベースとした3次元検出器の対角攻撃時のロバスト性評価と解析を行った。
論文 参考訳(メタデータ) (2022-12-20T13:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。