論文の概要: Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield
- arxiv url: http://arxiv.org/abs/2311.00172v1
- Date: Tue, 31 Oct 2023 22:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:33:02.024578
- Title: Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield
- Title(参考訳): 大規模言語モデルのためのロバスト安全性分類器:対向型プロンプトシールド
- Authors: Jinhwa Kim, Ali Derakhshan, Ian G. Harris
- Abstract要約: 大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
- 参考スコア(独自算出の注目度): 7.5520641322945785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models' safety remains a critical concern due to their
vulnerability to adversarial attacks, which can prompt these systems to produce
harmful responses. In the heart of these systems lies a safety classifier, a
computational model trained to discern and mitigate potentially harmful,
offensive, or unethical outputs. However, contemporary safety classifiers,
despite their potential, often fail when exposed to inputs infused with
adversarial noise. In response, our study introduces the Adversarial Prompt
Shield (APS), a lightweight model that excels in detection accuracy and
demonstrates resilience against adversarial prompts. Additionally, we propose
novel strategies for autonomously generating adversarial training datasets,
named Bot Adversarial Noisy Dialogue (BAND) datasets. These datasets are
designed to fortify the safety classifier's robustness, and we investigate the
consequences of incorporating adversarial examples into the training process.
Through evaluations involving Large Language Models, we demonstrate that our
classifier has the potential to decrease the attack success rate resulting from
adversarial attacks by up to 60%. This advancement paves the way for the next
generation of more reliable and resilient conversational agents.
- Abstract(参考訳): 大規模言語モデルの安全性は、敵攻撃に対する脆弱性のため重要な問題であり、これらのシステムが有害な応答を発生させる可能性がある。
これらのシステムの中心には安全分類器があり、潜在的に有害、攻撃的、非倫理的なアウトプットを識別・緩和するよう訓練された計算モデルである。
しかし、現代の安全分類器は、その潜在能力にもかかわらず、敵のノイズが混入した入力に曝されるとしばしば失敗する。
そこで本研究では,検出精度を向上し,対向的プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介した。
さらに,bot adversarial noise dialogue (band) データセットを自動生成するための新しい戦略を提案する。
これらのデータセットは, 安全分類器の堅牢性を高めるために設計されており, 逆例をトレーニングプロセスに組み込んだ結果について検討する。
大規模言語モデルによる評価を通じて,我々の分類器は,敵攻撃による攻撃成功率を最大60%低下させる可能性を実証した。
この進歩は、次世代の信頼性と回復力のある会話エージェントへの道を開く。
関連論文リスト
- Black-box Adversarial Transferability: An Empirical Study in Cybersecurity Perspective [0.0]
敵対的機械学習では、悪意のあるユーザは、トレーニングまたはテストフェーズ中に、相手の摂動入力をモデルに挿入することで、ディープラーニングモデルを騙そうとします。
サイバー攻撃検知システムにおけるブラックボックスの逆転現象を実証的に検証する。
その結果,攻撃者が対象モデルの内部情報にアクセスできなくても,どんなディープラーニングモデルでも敵攻撃に強い影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2024-04-15T06:56:28Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Unveiling Safety Vulnerabilities of Large Language Models [4.562678399685183]
本稿では,AttaQと呼ばれる質問の形で,敵対的な事例を含むユニークなデータセットを提案する。
各種モデルの脆弱性を解析することにより,データセットの有効性を評価する。
脆弱なセマンティック領域を特定し命名するための新しい自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-07T16:50:33Z) - Exploiting Explainability to Design Adversarial Attacks and Evaluate
Attack Resilience in Hate-Speech Detection Models [0.47334880432883714]
本稿では,様々なヘイト音声検出モデルで表される対向的頑健性について分析する。
TextAttackツールを利用することで、テキストに対するターゲット攻撃を考案し、実行します。
この研究は、より堅牢で信頼性の高いヘイトスピーチ検出システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2023-05-29T19:59:40Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - An Adversarially-Learned Turing Test for Dialog Generation Models [45.991035017908594]
本研究では,人間による応答から機械生成応答を識別する頑健なモデルであるATTを学習するための対人訓練手法を提案する。
従来の摂動に基づく手法とは対照的に,我々の判別器は,制限のない多種多様な対向例を反復的に生成することによって訓練されている。
識別器は,DialoGPTやGPT-3などの強力な攻撃者に対して高い精度を示す。
論文 参考訳(メタデータ) (2021-04-16T17:13:14Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。