Fugu-MT 論文翻訳(概要): Prompt Optimization and Evaluation for LLM Automated Red Teaming

論文の概要: Prompt Optimization and Evaluation for LLM Automated Red Teaming

arxiv url: http://arxiv.org/abs/2507.22133v1
Date: Tue, 29 Jul 2025 18:08:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 16:14:17.795568
Title: Prompt Optimization and Evaluation for LLM Automated Red Teaming
Title（参考訳）: LLM自動化赤チームにおけるプロンプト最適化と評価
Authors: Michael Freenor, Lauren Alvarez, Milton Leal, Lily Smith, Joel Garrett, Yelyzaveta Husieva, Madeline Woodruff, Ryan Miller, Erich Kummerfeld, Rafael Medeiros, Sander Schulhoff,
Abstract要約: 本稿では,ASRを個別攻撃に適用する攻撃発生プロンプトの最適化手法を提案する。ランダムにシードされたターゲットに対する攻撃を繰り返すことで、攻撃の発見可能性と個々の攻撃成功の期待を計測する。
参考スコア（独自算出の注目度）: 0.5259346146529064
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Applications that use Large Language Models (LLMs) are becoming widespread, making the identification of system vulnerabilities increasingly important. Automated Red Teaming accelerates this effort by using an LLM to generate and execute attacks against target systems. Attack generators are evaluated using the Attack Success Rate (ASR) the sample mean calculated over the judgment of success for each attack. In this paper, we introduce a method for optimizing attack generator prompts that applies ASR to individual attacks. By repeating each attack multiple times against a randomly seeded target, we measure an attack's discoverability the expectation of the individual attack success. This approach reveals exploitable patterns that inform prompt optimization, ultimately enabling more robust evaluation and refinement of generators.
Abstract（参考訳）: 大規模言語モデル(LLM)を使用するアプリケーションは広く普及しており、システムの脆弱性の特定がますます重要になっている。自動化されたRed Teamingは、LLMを使用してターゲットシステムに対する攻撃を生成し実行することで、この作業を加速します。攻撃発生器を攻撃成功率(ASR)を用いて評価し、各攻撃の成功判定で算出したサンプル平均値を算出する。本稿では,ASRを個別攻撃に適用する攻撃発生プロンプトを最適化する手法を提案する。ランダムにシードされたターゲットに対して各攻撃を複数回繰り返すことで、攻撃の発見可能性と個々の攻撃成功の期待を計測する。このアプローチは、迅速な最適化を通知する悪用可能なパターンを明らかにし、最終的にはジェネレータのより堅牢な評価と改善を可能にします。

関連論文リスト

Tail-aware Adversarial Attacks: A Distributional Approach to Efficient LLM Jailbreaking [44.8238758047607]
既存の敵攻撃は、通常、単一点、欲張り世代における有害な反応を標的にしている。本稿では,テールリスクを含む出力分布全体を明示的にモデル化する,逆評価のための新しいフレームワークを提案する。我々のフレームワークはまた、異なる攻撃アルゴリズムが出力の害分布にどのように影響するかを分析することができる。
論文参考訳（メタデータ） (2025-07-06T16:13:33Z)
The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文参考訳（メタデータ） (2025-05-24T08:19:25Z)
AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文参考訳（メタデータ） (2025-04-18T08:38:56Z)
REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文参考訳（メタデータ） (2025-02-24T15:34:48Z)
Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文参考訳（メタデータ） (2024-08-09T12:26:05Z)
Rethinking Targeted Adversarial Attacks For Neural Machine Translation [56.10484905098989]
本報告では,NMTが標的とする敵攻撃に対して,信頼性の高い攻撃結果をもたらす可能性のある新たな設定を提案する。新しい設定では、敵の例を作成するためのTWGA(Targeted Word Gradient Adversarial Attack)手法を提案する。実験の結果,提案手法はNMTシステムに対する敵攻撃に対して忠実な攻撃効果をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2024-07-07T10:16:06Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
Automatic and Universal Prompt Injection Attacks against Large Language Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文参考訳（メタデータ） (2024-03-07T23:46:20Z)
DALA: A Distribution-Aware LoRA-Based Adversarial Attack against Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文参考訳（メタデータ） (2023-11-14T23:43:47Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
Generalizable Black-Box Adversarial Attack with Meta Learning [54.196613395045595]
ブラックボックス攻撃では、ターゲットモデルのパラメータが不明であり、攻撃者はクエリのフィードバックに基づいて、クエリの予算に基づいて摂動を成功させることを目指している。本稿では,実例レベルの逆転可能性という,過去の攻撃に対するフィードバック情報を活用することを提案する。この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上させることができる。
論文参考訳（メタデータ） (2023-01-01T07:24:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。