Fugu-MT 論文翻訳(概要): Automated Progressive Red Teaming

論文の概要: Automated Progressive Red Teaming

arxiv url: http://arxiv.org/abs/2407.03876v3
Date: Sat, 21 Dec 2024 11:24:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.611177
Title: Automated Progressive Red Teaming
Title（参考訳）: 自動化されたプログレッシブレッドチーム
Authors: Bojian Jiang, Yi Jing, Tianhao Shen, Tong Wu, Qing Yang, Deyi Xiong,
Abstract要約: 手動のレッドチーム化は時間がかかり、コストがかかり、スケーラビリティが欠如しています。我々は,効果的に学習可能なフレームワークとして,APRT(Automated Progressive Red Teaming)を提案する。 APRTは3つのコアモジュールを活用している: 多様な初期攻撃サンプルを生成するインテンション拡張LDM、敵のプロンプトを製作するインテンションハイディングLDM、そして、迅速な多様性と非効率なサンプルのフィルタリングを管理するEvil Makerである。
参考スコア（独自算出の注目度）: 38.723546092060666
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensuring the safety of large language models (LLMs) is paramount, yet identifying potential vulnerabilities is challenging. While manual red teaming is effective, it is time-consuming, costly and lacks scalability. Automated red teaming (ART) offers a more cost-effective alternative, automatically generating adversarial prompts to expose LLM vulnerabilities. However, in current ART efforts, a robust framework is absent, which explicitly frames red teaming as an effectively learnable task. To address this gap, we propose Automated Progressive Red Teaming (APRT) as an effectively learnable framework. APRT leverages three core modules: an Intention Expanding LLM that generates diverse initial attack samples, an Intention Hiding LLM that crafts deceptive prompts, and an Evil Maker to manage prompt diversity and filter ineffective samples. The three modules collectively and progressively explore and exploit LLM vulnerabilities through multi-round interactions. In addition to the framework, we further propose a novel indicator, Attack Effectiveness Rate (AER) to mitigate the limitations of existing evaluation metrics. By measuring the likelihood of eliciting unsafe but seemingly helpful responses, AER aligns closely with human evaluations. Extensive experiments with both automatic and human evaluations, demonstrate the effectiveness of ARPT across both open- and closed-source LLMs. Specifically, APRT effectively elicits 54% unsafe yet useful responses from Meta's Llama-3-8B-Instruct, 50% from GPT-4o (API access), and 39% from Claude-3.5 (API access), showcasing its robust attack capability and transferability across LLMs (especially from open-source LLMs to closed-source LLMs).
Abstract（参考訳）: 大きな言語モデル(LLM)の安全性を保証することが最重要であるが、潜在的な脆弱性を特定することは難しい。手動のレッドチーム化は効果的ですが、時間を費やし、コストがかかり、スケーラビリティが欠如しています。 ART(Automated Red Teaming)は、LDM脆弱性を公開するための敵のプロンプトを自動的に生成する、よりコスト効率のよい代替手段を提供する。しかし、現在のARTの取り組みでは、堅牢なフレームワークが欠如している。このギャップに対処するため、我々は効果的に学習可能なフレームワークとしてAPRT(Automated Progressive Red Teaming)を提案する。 APRTは3つのコアモジュールを活用している: 多様な初期攻撃サンプルを生成するインテンション拡張LDM、偽装プロンプトを作成するインテンションHiding LLM、そして、迅速な多様性と非効率なサンプルのフィルタリングを管理するEvil Makerである。 3つのモジュールは、複数ラウンドの相互作用を通じてLSM脆弱性を総合的に、そして段階的に探索し、活用する。このフレームワークに加えて,既存の評価指標の限界を緩和する新たな指標であるアタック・エフェクトネス・レート(AER)も提案する。安全でないと思われる応答を誘発する可能性を測定することで、AERは人間の評価と密接に一致している。自動評価と人的評価の両方による大規模な実験は、オープンソースLLMとクローズドソースLLMの両方でARPTの有効性を実証している。具体的には、APRTはMetaのLlama-3-8Bインストラクトから54%、GPT-4o(APIアクセス)から50%、Claude-3.5(APIアクセス)から39%の安全でない有用なレスポンスを効果的に引き出す。

関連論文リスト

Analysis of LLMs Against Prompt Injection and Jailbreak Attacks [7.685814179879813]
この研究は、大規模な手動でキュレートされたデータセットを使用して、プロンプトインジェクションとジェイルブレイクの脆弱性を評価する。内部安全機構によって引き起こされる、拒絶応答や完全な無声応答を含むモデル間での行動変化を観察する。
論文参考訳（メタデータ） (2026-02-24T12:32:11Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文参考訳（メタデータ） (2024-12-05T18:38:30Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文参考訳（メタデータ） (2023-11-13T19:13:29Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks [0.0]
言語モデル(LLM)と浸透試験の共通点について検討する。本稿では,LLMの(倫理的)ハッキングに対する有効性を評価するための,完全自動特権エスカレーションツールを提案する。我々は,異なるコンテキストサイズ,コンテキスト内学習,任意の高レベルメカニズム,メモリ管理技術の影響を分析する。
論文参考訳（メタデータ） (2023-10-17T17:15:41Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。