論文の概要: Automated Adversarial Discovery for Safety Classifiers
- arxiv url: http://arxiv.org/abs/2406.17104v1
- Date: Mon, 24 Jun 2024 19:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 18:21:22.755458
- Title: Automated Adversarial Discovery for Safety Classifiers
- Title(参考訳): 安全分類器の自動対向探索
- Authors: Yash Kumar Lal, Preethi Lahoti, Aradhana Sinha, Yao Qin, Ananth Balashankar,
- Abstract要約: 安全分類器の自動対向探索のタスクを形式化する。
The CivilComments toxicity taskにおける既存の攻撃生成手法の評価は,その限界を明らかにしている。
我々の最も優れたプロンプトベースの手法でさえ、目に見えない攻撃の被害次元に対する新たな攻撃が、その5%しか成功していない。
- 参考スコア(独自算出の注目度): 10.61889194493287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety classifiers are critical in mitigating toxicity on online forums such as social media and in chatbots. Still, they continue to be vulnerable to emergent, and often innumerable, adversarial attacks. Traditional automated adversarial data generation methods, however, tend to produce attacks that are not diverse, but variations of previously observed harm types. We formalize the task of automated adversarial discovery for safety classifiers - to find new attacks along previously unseen harm dimensions that expose new weaknesses in the classifier. We measure progress on this task along two key axes (1) adversarial success: does the attack fool the classifier? and (2) dimensional diversity: does the attack represent a previously unseen harm type? Our evaluation of existing attack generation methods on the CivilComments toxicity task reveals their limitations: Word perturbation attacks fail to fool classifiers, while prompt-based LLM attacks have more adversarial success, but lack dimensional diversity. Even our best-performing prompt-based method finds new successful attacks on unseen harm dimensions of attacks only 5\% of the time. Automatically finding new harmful dimensions of attack is crucial and there is substantial headroom for future research on our new task.
- Abstract(参考訳): 安全分類器は、ソーシャルメディアやチャットボットなどのオンラインフォーラムにおける毒性の軽減に重要である。
それでも、彼らは創発的で、しばしば無数の敵攻撃に対して脆弱である。
しかし、従来の自動対向データ生成手法は、多様ではなく、以前に観察された害の種類の違いによる攻撃を引き起こす傾向にある。
我々は、安全分類器の自動敵発見のタスクを形式化し、分類器の新たな弱点を露呈する未確認の害次元に沿って新しい攻撃を見つける。
2つのキー軸に沿ってこのタスクの進捗を計測する(1) 敵的成功: 攻撃は分類器を騙しているのか?
そして (2) 次元の多様性: 攻撃は以前見えなかった害のタイプを表すか?
我々のCivilComments toxicityタスクにおける既存の攻撃生成手法の評価は,その限界を明らかにしている: 単語摂動攻撃は,誤分類に失敗する一方,プロンプトベースのLSM攻撃は,より敵意的な成功を収めるが,次元的多様性は欠如している。
我々の最も優れたプロンプトベースの手法でさえ、目に見えない攻撃の被害次元に対する新たな攻撃が成功するのは5倍である。
新しい有害な攻撃の次元を自動で見つけることは極めて重要であり、我々の新しい課題に関する今後の研究に十分な基礎がある。
関連論文リスト
- Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues [88.96201324719205]
本研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の安全性の脆弱性を明らかにする。
本稿ではアクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - A Dual-Tier Adaptive One-Class Classification IDS for Emerging Cyberthreats [3.560574387648533]
2層構造を有する一級分類駆動型IDSシステムを提案する。
第1層は通常の活動と攻撃/脅威を区別し、第2層は検出された攻撃が未知であるかを判定する。
このモデルは、目に見えない攻撃を識別するだけでなく、目に見えない攻撃をクラスタリングすることでそれらを再トレーニングするために使用する。
論文 参考訳(メタデータ) (2024-03-17T12:26:30Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Preserving Semantics in Textual Adversarial Attacks [0.0]
敵の攻撃によって生じる敵の事例の最大70%は、意味論を保存していないため破棄されるべきである。
SPE(Semantics-Preserving-Encoder)と呼ばれる新しい完全教師付き文埋め込み手法を提案する。
本手法は, 敵攻撃における既存の文エンコーダよりも1.2倍から5.1倍優れた実攻撃成功率を達成している。
論文 参考訳(メタデータ) (2022-11-08T12:40:07Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Defending Black-box Skeleton-based Human Activity Classifiers [38.95979614080714]
本稿では,人骨をベースとした人間行動認識について検討する。これは時系列データの重要なタイプであるが,攻撃に対する防御には不十分である。
BEATは単純だがエレガントで、脆弱なブラックボックス分類器を精度を犠牲にすることなく堅牢なものにします。
論文 参考訳(メタデータ) (2022-03-09T13:46:10Z) - ROOM: Adversarial Machine Learning Attacks Under Real-Time Constraints [3.042299765078767]
オフラインコンポーネントがオンラインアルゴリズムのウォームアップにどのように役立つのかを示す。
本稿では,このようなリアルタイム対向攻撃を支援するために,リアルタイム制約下で対向雑音をどうやって生成するかという問題を紹介する。
論文 参考訳(メタデータ) (2022-01-05T14:03:26Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z) - Adversarial Fooling Beyond "Flipping the Label" [54.23547006072598]
CNNは、多くの重要なタスクにおいて、人間に近いか、人間のパフォーマンスよりも優れていることを示す。
これらの攻撃は、実際の展開において潜在的に危険である。
異なるCNNアーキテクチャの集合に対するいくつかの重要な敵攻撃を包括的に分析する。
論文 参考訳(メタデータ) (2020-04-27T13:21:03Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。