論文の概要: Towards Inclusive Toxic Content Moderation: Addressing Vulnerabilities to Adversarial Attacks in Toxicity Classifiers Tackling LLM-generated Content
- arxiv url: http://arxiv.org/abs/2509.12672v1
- Date: Tue, 16 Sep 2025 04:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.88845
- Title: Towards Inclusive Toxic Content Moderation: Addressing Vulnerabilities to Adversarial Attacks in Toxicity Classifiers Tackling LLM-generated Content
- Title(参考訳): 包括的有害コンテンツモデレーションに向けて:LSM生成コンテンツに対処する毒性分類器における敵攻撃に対する脆弱性に対処する
- Authors: Shaz Furniturewala, Arkaitz Zubiaga,
- Abstract要約: 本研究では,様々なマイノリティグループにまたがる多様なデータセットを対象に,細調整のBERTとRoBERTa分類器について検討した。
我々は、敵攻撃技術を用いて脆弱な回路を識別し、敵攻撃に対する性能を向上させる。
モデルは、性能に欠かせないか、攻撃に弱いか、脆弱な頭部を抑えることで、対向入力の性能を向上させることが判明した。
- 参考スコア(独自算出の注目度): 12.26588825477595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The volume of machine-generated content online has grown dramatically due to the widespread use of Large Language Models (LLMs), leading to new challenges for content moderation systems. Conventional content moderation classifiers, which are usually trained on text produced by humans, suffer from misclassifications due to LLM-generated text deviating from their training data and adversarial attacks that aim to avoid detection. Present-day defence tactics are reactive rather than proactive, since they rely on adversarial training or external detection models to identify attacks. In this work, we aim to identify the vulnerable components of toxicity classifiers that contribute to misclassification, proposing a novel strategy based on mechanistic interpretability techniques. Our study focuses on fine-tuned BERT and RoBERTa classifiers, testing on diverse datasets spanning a variety of minority groups. We use adversarial attacking techniques to identify vulnerable circuits. Finally, we suppress these vulnerable circuits, improving performance against adversarial attacks. We also provide demographic-level insights into these vulnerable circuits, exposing fairness and robustness gaps in model training. We find that models have distinct heads that are either crucial for performance or vulnerable to attack and suppressing the vulnerable heads improves performance on adversarial input. We also find that different heads are responsible for vulnerability across different demographic groups, which can inform more inclusive development of toxicity detection models.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及により、オンラインの機械生成コンテンツの量は劇的に増加し、コンテンツモデレーションシステムに新たな課題がもたらされた。
従来のコンテンツモデレーション分類器は、通常、人間が生成するテキストで訓練されるが、学習データから逸脱したLCM生成のテキストや、検出を避けるための敵攻撃による誤分類に悩まされている。
現代の防衛戦術は、攻撃を特定するために敵の訓練や外部検出モデルに依存するため、積極的に行動するよりも反応性が高い。
本研究では, 誤分類に寄与する毒性分類器の脆弱な成分を同定し, 機械的解釈可能性に基づく新しい戦略を提案する。
本研究は,様々なマイノリティグループにまたがる多様なデータセットを対象とした,細調整BERTとRoBERTa分類器に焦点を当てた。
我々は、脆弱な回路を識別するために、敵攻撃技術を用いる。
最後に、これらの脆弱性のある回路を抑え、敵攻撃に対する性能を向上させる。
また、これらの脆弱な回路に対する人口統計レベルの洞察を提供し、モデルトレーニングにおける公正性と堅牢性ギャップを明らかにする。
モデルは、性能に欠かせないか、攻撃に弱いか、脆弱な頭部を抑えることで、対向入力の性能を向上させることが判明した。
また、異なる頭部が異なる人口集団にまたがる脆弱性の原因であり、毒性検出モデルのより包括的発達を知らせる可能性があることもわかりました。
関連論文リスト
- Exploiting Edge Features for Transferable Adversarial Attacks in Distributed Machine Learning [54.26807397329468]
この研究は、分散ディープラーニングシステムにおいて、これまで見過ごされていた脆弱性を探究する。
中間的特徴をインターセプトする敵は、依然として深刻な脅威となる可能性がある。
本稿では,分散環境に特化して設計されたエクスプロイト戦略を提案する。
論文 参考訳(メタデータ) (2025-07-09T20:09:00Z) - Adversarial Training for Defense Against Label Poisoning Attacks [53.893792844055106]
ラベル中毒攻撃は機械学習モデルに重大なリスクをもたらす。
本稿では,これらの脅威に対処するために,サポートベクトルマシン(SVM)に基づく新たな対角的防御戦略を提案する。
提案手法は, 様々なモデルアーキテクチャに対応し, カーネルSVMを用いた予測勾配降下アルゴリズムを用いて, 対向学習を行う。
論文 参考訳(メタデータ) (2025-02-24T13:03:19Z) - Undermining Image and Text Classification Algorithms Using Adversarial Attacks [0.0]
本研究は,各種機械学習モデルを訓練し,GANとSMOTEを用いてテキスト分類モデルへの攻撃を目的とした追加データポイントを生成することにより,そのギャップを解消する。
実験の結果,分類モデルの重大な脆弱性が明らかとなった。特に,攻撃後の最上位のテキスト分類モデルの精度が20%低下し,顔認識精度が30%低下した。
論文 参考訳(メタデータ) (2024-11-03T18:44:28Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Black-box Adversarial Transferability: An Empirical Study in Cybersecurity Perspective [0.0]
敵対的機械学習では、悪意のあるユーザは、トレーニングまたはテストフェーズ中に、相手の摂動入力をモデルに挿入することで、ディープラーニングモデルを騙そうとします。
サイバー攻撃検知システムにおけるブラックボックスの逆転現象を実証的に検証する。
その結果,攻撃者が対象モデルの内部情報にアクセスできなくても,どんなディープラーニングモデルでも敵攻撃に強い影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2024-04-15T06:56:28Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - ExploreADV: Towards exploratory attack for Neural Networks [0.33302293148249124]
ExploreADVは、地域的および非受容的な攻撃をモデル化できる汎用的で柔軟な敵攻撃システムである。
提案システムは,入力のサブリージョンに着目し,知覚不能な摂動を探索し,攻撃に対する画素/領域の脆弱性を理解するための柔軟性をユーザに提供する。
論文 参考訳(メタデータ) (2023-01-01T07:17:03Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。