論文の概要: Beyond Detection: Unveiling Fairness Vulnerabilities in Abusive Language
Models
- arxiv url: http://arxiv.org/abs/2311.09428v1
- Date: Wed, 15 Nov 2023 22:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:13:52.213389
- Title: Beyond Detection: Unveiling Fairness Vulnerabilities in Abusive Language
Models
- Title(参考訳): beyond detection: 不正言語モデルにおける公平性の脆弱性
- Authors: Yueqing Liang, Lu Cheng, Ali Payani and Kai Shu
- Abstract要約: 本研究では, 乱用言語検出におけるフェアネスと検出性能の両方を損なう可能性について検討する。
フェアネスと検出性能の目標制御を可能にするため,バックドア攻撃を利用したFABLEフレームワークを提案する。
ベンチマークデータセットの実験は、乱用言語検出におけるFABLE攻撃の公平性と有用性を示す。
- 参考スコア(独自算出の注目度): 20.14460467042314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates the potential of undermining both fairness and
detection performance in abusive language detection. In a dynamic and complex
digital world, it is crucial to investigate the vulnerabilities of these
detection models to adversarial fairness attacks to improve their fairness
robustness. We propose a simple yet effective framework FABLE that leverages
backdoor attacks as they allow targeted control over the fairness and detection
performance. FABLE explores three types of trigger designs (i.e., rare,
artificial, and natural triggers) and novel sampling strategies. Specifically,
the adversary can inject triggers into samples in the minority group with the
favored outcome (i.e., ``non-abusive'') and flip their labels to the unfavored
outcome, i.e., ``abusive''. Experiments on benchmark datasets demonstrate the
effectiveness of FABLE attacking fairness and utility in abusive language
detection.
- Abstract(参考訳): 本研究では,不正言語検出における公平性と検出性能の両方を損なう可能性について検討する。
動的で複雑なデジタル世界では、これらの検出モデルの脆弱性を敵の公正攻撃に対して調査し、公平性を改善することが不可欠である。
本研究では,バックドア攻撃によるフェアネスと検出性能の目標制御が可能な,シンプルで効果的なフレームワークFABLEを提案する。
FABLEは3種類のトリガー設計(レア、人工、天然のトリガー)と新しいサンプリング戦略を探求している。
具体的には、敵は好ましくない結果(すなわち'non-abusive'')を持つマイノリティグループのサンプルにトリガーを注入し、そのラベルを好ましくない結果(すなわち'abusive')にひっくり返すことができる。
ベンチマークデータセットの実験は、乱用言語検出におけるFABLE攻撃の公平性と有用性を示す。
関連論文リスト
- Investigating Coverage Criteria in Large Language Models: An In-Depth Study Through Jailbreak Attacks [10.909463767558023]
本稿では,ニューラルアクティベーション機能を利用して,ジェイルブレイク攻撃をリアルタイムに検出するための革新的なアプローチを提案する。
提案手法は,LLMを組み込んだ将来のシステムにおいて,堅牢なリアルタイム検出機能を実現することを約束する。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - Semantic Stealth: Adversarial Text Attacks on NLP Using Several Methods [0.0]
テキスト敵攻撃は、入力テキストを意図的に操作することで、モデルの予測を誤解させる。
本稿では,BERT,BERT-on-BERT,Fraud Bargain's Attack (FBA)について述べる。
PWWSは最も強力な敵として登場し、複数の評価シナリオで他のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-04-08T02:55:01Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Attack on Unfair ToS Clause Detection: A Case Study using Universal
Adversarial Triggers [0.23624125155742057]
我々は、普遍的な敵の引き金となる不公平な検知器を攻撃する実験を行う。
実験により、テキストのわずかな摂動は検出性能を著しく低下させることが示された。
結果は、トリガーの自然さが読者を騙すための鍵であることを示しています。
論文 参考訳(メタデータ) (2022-11-28T17:01:19Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Poisoning Attacks on Fair Machine Learning [13.874416271549523]
本稿では, モデル精度とアルゴリズムフェアネスの両方に対処するために, 有毒なサンプルを生成するフレームワークを提案する。
我々は,3つのオンラインアタック,対向サンプリング,対向ラベル付け,対向特徴修正を開発する。
本フレームワークでは,攻撃者が予測精度や公平性に着目して攻撃の焦点を柔軟に調整し,各候補点の影響を精度損失と公平性違反の両方に対して正確に定量化することができる。
論文 参考訳(メタデータ) (2021-10-17T21:56:14Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。