論文の概要: DART: Deep Adversarial Automated Red Teaming for LLM Safety
- arxiv url: http://arxiv.org/abs/2407.03876v1
- Date: Thu, 4 Jul 2024 12:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:12:58.441626
- Title: DART: Deep Adversarial Automated Red Teaming for LLM Safety
- Title(参考訳): DART: LLM安全のための深層対人自動レッドチーム
- Authors: Bojian Jiang, Yi Jing, Tianhao Shen, Qing Yang, Deyi Xiong,
- Abstract要約: 大規模言語モデル(LLM)における安全性の脆弱性を検出するために,DART(Deep Adversarial Automated Red Teaming)フレームワークを提案する。
実験により、DARTは目標LLMの安全性を著しく低下させることが示された。
人間によるArthhropic Harmlessデータセットの評価では、DARTは違反リスクを53.4%削減している。
- 参考スコア(独自算出の注目度): 38.381963959184944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manual Red teaming is a commonly-used method to identify vulnerabilities in large language models (LLMs), which, is costly and unscalable. In contrast, automated red teaming uses a Red LLM to automatically generate adversarial prompts to the Target LLM, offering a scalable way for safety vulnerability detection. However, the difficulty of building a powerful automated Red LLM lies in the fact that the safety vulnerabilities of the Target LLM are dynamically changing with the evolution of the Target LLM. To mitigate this issue, we propose a Deep Adversarial Automated Red Teaming (DART) framework in which the Red LLM and Target LLM are deeply and dynamically interacting with each other in an iterative manner. In each iteration, in order to generate successful attacks as many as possible, the Red LLM not only takes into account the responses from the Target LLM, but also adversarially adjust its attacking directions by monitoring the global diversity of generated attacks across multiple iterations. Simultaneously, to explore dynamically changing safety vulnerabilities of the Target LLM, we allow the Target LLM to enhance its safety via an active learning based data selection mechanism. Experimential results demonstrate that DART significantly reduces the safety risk of the target LLM. For human evaluation on Anthropic Harmless dataset, compared to the instruction-tuning target LLM, DART eliminates the violation risks by 53.4\%. We will release the datasets and codes of DART soon.
- Abstract(参考訳): 手動レッドチーム(Manual Red teaming)は、大規模言語モデル(LLM)の脆弱性を特定するために一般的に使用される手法である。
対照的に、自動化されたレッドチームでは、Red LLMを使用してTarget LLMに対する敵のプロンプトを自動的に生成し、安全な脆弱性検出のためのスケーラブルな方法を提供している。
しかしながら、強力な自動化されたRed LLMを構築することの難しさは、Target LLMの安全性上の脆弱性がTarget LLMの進化とともに動的に変化しているという事実にある。
この問題を軽減するために,Red LLMとTarget LLMが相互に反復的に動的に相互作用するディープ・アディバーショナル・オートマチック・レッド・チーム(DART)フレームワークを提案する。
各イテレーションにおいて、できるだけ多くの攻撃を成功させるために、Red LLMはターゲットLSMからの応答を考慮に入れ、複数のイテレーションにわたって生成された攻撃のグローバルな多様性を監視して攻撃方向を逆向きに調整する。
同時に、ターゲットLLMの安全性の脆弱性を動的に変化させるために、アクティブラーニングベースのデータ選択機構を通じて、ターゲットLLMの安全性を高めることができる。
実験により、DARTは目標LLMの安全性を著しく低下させることが示された。
人類学的なハームレスデータセットの人間による評価では、命令チューニング対象のLLMと比較して、DARTは違反リスクを53.4\%削減する。
近いうちに、DARTのデータセットとコードをリリースします。
関連論文リスト
- Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks [0.0]
言語モデル(LLM)と浸透試験の共通点について検討する。
本稿では,LLMの(倫理的)ハッキングに対する有効性を評価するための,完全自動特権エスカレーションツールを提案する。
我々は,異なるコンテキストサイズ,コンテキスト内学習,任意の高レベルメカニズム,メモリ管理技術の影響を分析する。
論文 参考訳(メタデータ) (2023-10-17T17:15:41Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。