論文の概要: Attack on Unfair ToS Clause Detection: A Case Study using Universal
Adversarial Triggers
- arxiv url: http://arxiv.org/abs/2211.15556v1
- Date: Mon, 28 Nov 2022 17:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 17:46:49.892534
- Title: Attack on Unfair ToS Clause Detection: A Case Study using Universal
Adversarial Triggers
- Title(参考訳): Unfair ToS Clause Detection に対する攻撃:Universal Adversarial Trigger を用いたケーススタディ
- Authors: Shanshan Xu and Irina Broda and Rashid Haddad and Marco Negrini and
Matthias Grabmair
- Abstract要約: 我々は、普遍的な敵の引き金となる不公平な検知器を攻撃する実験を行う。
実験により、テキストのわずかな摂動は検出性能を著しく低下させることが示された。
結果は、トリガーの自然さが読者を騙すための鍵であることを示しています。
- 参考スコア(独自算出の注目度): 0.23624125155742057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has demonstrated that natural language processing techniques can
support consumer protection by automatically detecting unfair clauses in the
Terms of Service (ToS) Agreement. This work demonstrates that transformer-based
ToS analysis systems are vulnerable to adversarial attacks. We conduct
experiments attacking an unfair-clause detector with universal adversarial
triggers. Experiments show that a minor perturbation of the text can
considerably reduce the detection performance. Moreover, to measure the
detectability of the triggers, we conduct a detailed human evaluation study by
collecting both answer accuracy and response time from the participants. The
results show that the naturalness of the triggers remains key to tricking
readers.
- Abstract(参考訳): 近年の研究では、自然言語処理技術がサービス規約(tos)の不正な条項を自動的に検出することで消費者保護を支援することが示されている。
この研究は、トランスフォーマーベースのToS分析システムが敵攻撃に対して脆弱であることを示す。
我々は,普遍的な敵トリガーを持つ不公平なクラーズ検出器を攻撃実験を行う。
実験により、テキストのわずかな摂動は検出性能を著しく低下させることが示された。
さらに,トリガの検出可能性を測定するため,回答の精度と応答時間の両方を参加者から収集し,詳細な人的評価研究を行う。
その結果、トリガーの自然さが読者を騙す鍵であることがわかった。
関連論文リスト
- Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Beyond Detection: Unveiling Fairness Vulnerabilities in Abusive Language
Models [20.14460467042314]
本研究では, 乱用言語検出におけるフェアネスと検出性能の両方を損なう可能性について検討する。
フェアネスと検出性能の目標制御を可能にするため,バックドア攻撃を利用したFABLEフレームワークを提案する。
ベンチマークデータセットの実験は、乱用言語検出におけるFABLE攻撃の公平性と有用性を示す。
論文 参考訳(メタデータ) (2023-11-15T22:57:13Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。