論文の概要: Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield
- arxiv url: http://arxiv.org/abs/2311.00172v1
- Date: Tue, 31 Oct 2023 22:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:33:02.024578
- Title: Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield
- Title(参考訳): 大規模言語モデルのためのロバスト安全性分類器:対向型プロンプトシールド
- Authors: Jinhwa Kim, Ali Derakhshan, Ian G. Harris
- Abstract要約: 大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
- 参考スコア(独自算出の注目度): 7.5520641322945785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models' safety remains a critical concern due to their
vulnerability to adversarial attacks, which can prompt these systems to produce
harmful responses. In the heart of these systems lies a safety classifier, a
computational model trained to discern and mitigate potentially harmful,
offensive, or unethical outputs. However, contemporary safety classifiers,
despite their potential, often fail when exposed to inputs infused with
adversarial noise. In response, our study introduces the Adversarial Prompt
Shield (APS), a lightweight model that excels in detection accuracy and
demonstrates resilience against adversarial prompts. Additionally, we propose
novel strategies for autonomously generating adversarial training datasets,
named Bot Adversarial Noisy Dialogue (BAND) datasets. These datasets are
designed to fortify the safety classifier's robustness, and we investigate the
consequences of incorporating adversarial examples into the training process.
Through evaluations involving Large Language Models, we demonstrate that our
classifier has the potential to decrease the attack success rate resulting from
adversarial attacks by up to 60%. This advancement paves the way for the next
generation of more reliable and resilient conversational agents.
- Abstract(参考訳): 大規模言語モデルの安全性は、敵攻撃に対する脆弱性のため重要な問題であり、これらのシステムが有害な応答を発生させる可能性がある。
これらのシステムの中心には安全分類器があり、潜在的に有害、攻撃的、非倫理的なアウトプットを識別・緩和するよう訓練された計算モデルである。
しかし、現代の安全分類器は、その潜在能力にもかかわらず、敵のノイズが混入した入力に曝されるとしばしば失敗する。
そこで本研究では,検出精度を向上し,対向的プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介した。
さらに,bot adversarial noise dialogue (band) データセットを自動生成するための新しい戦略を提案する。
これらのデータセットは, 安全分類器の堅牢性を高めるために設計されており, 逆例をトレーニングプロセスに組み込んだ結果について検討する。
大規模言語モデルによる評価を通じて,我々の分類器は,敵攻撃による攻撃成功率を最大60%低下させる可能性を実証した。
この進歩は、次世代の信頼性と回復力のある会話エージェントへの道を開く。
関連論文リスト
- Extreme Miscalibration and the Illusion of Adversarial Robustness [70.24478307317523]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Unveiling Safety Vulnerabilities of Large Language Models [4.562678399685183]
本稿では,AttaQと呼ばれる質問の形で,敵対的な事例を含むユニークなデータセットを提案する。
各種モデルの脆弱性を解析することにより,データセットの有効性を評価する。
脆弱なセマンティック領域を特定し命名するための新しい自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-07T16:50:33Z) - Exploiting Explainability to Design Adversarial Attacks and Evaluate
Attack Resilience in Hate-Speech Detection Models [0.47334880432883714]
本稿では,様々なヘイト音声検出モデルで表される対向的頑健性について分析する。
TextAttackツールを利用することで、テキストに対するターゲット攻撃を考案し、実行します。
この研究は、より堅牢で信頼性の高いヘイトスピーチ検出システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2023-05-29T19:59:40Z) - Disentangled Text Representation Learning with Information-Theoretic
Perspective for Adversarial Robustness [17.5771010094384]
敵の脆弱性は信頼性の高いNLPシステムを構築する上で大きな障害である。
最近の研究は、モデルの敵意的な脆弱性は教師あり訓練における非破壊的な特徴によって引き起こされると主張している。
本稿では,不整合表現学習の観点から,敵対的課題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T18:14:39Z) - RobustSense: Defending Adversarial Attack for Secure Device-Free Human
Activity Recognition [37.387265457439476]
我々は、共通の敵攻撃を防御する新しい学習フレームワーク、RobustSenseを提案する。
本手法は,無線による人間行動認識と人物識別システムに有効である。
論文 参考訳(メタデータ) (2022-04-04T15:06:03Z) - Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - An Adversarially-Learned Turing Test for Dialog Generation Models [45.991035017908594]
本研究では,人間による応答から機械生成応答を識別する頑健なモデルであるATTを学習するための対人訓練手法を提案する。
従来の摂動に基づく手法とは対照的に,我々の判別器は,制限のない多種多様な対向例を反復的に生成することによって訓練されている。
識別器は,DialoGPTやGPT-3などの強力な攻撃者に対して高い精度を示す。
論文 参考訳(メタデータ) (2021-04-16T17:13:14Z) - Adversarial defense for automatic speaker verification by cascaded
self-supervised learning models [101.42920161993455]
ますます悪意のある攻撃者は、自動話者検証(ASV)システムで敵攻撃を仕掛けようとする。
本稿では,逐次的自己教師付き学習モデルに基づく標準的かつ攻撃非依存な手法を提案する。
実験により, 本手法は効果的な防御性能を実現し, 敵攻撃に対抗できることを示した。
論文 参考訳(メタデータ) (2021-02-14T01:56:43Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。