論文の概要: AutoRed: A Free-form Adversarial Prompt Generation Framework for Automated Red Teaming
- arxiv url: http://arxiv.org/abs/2510.08329v1
- Date: Thu, 09 Oct 2025 15:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.158638
- Title: AutoRed: A Free-form Adversarial Prompt Generation Framework for Automated Red Teaming
- Title(参考訳): AutoRed: 自動レッドチームのためのフリーフォーム逆転プロンプト生成フレームワーク
- Authors: Muxi Diao, Yutao Mou, Keqing He, Hanbo Song, Lulu Zhao, Shikun Zhang, Wei Ye, Kongming Liang, Zhanyu Ma,
- Abstract要約: AutoRedは、シード命令の必要性を取り除く自由形式の逆プロンプト生成フレームワークである。
2つのレッドチームデータセットを構築し、8つの最先端の大規模言語モデルを評価する。
本研究は,シードベースアプローチの限界を強調し,安全性評価のための自由形レッドチームの可能性を示した。
- 参考スコア(独自算出の注目度): 58.70941433155648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The safety of Large Language Models (LLMs) is crucial for the development of trustworthy AI applications. Existing red teaming methods often rely on seed instructions, which limits the semantic diversity of the synthesized adversarial prompts. We propose AutoRed, a free-form adversarial prompt generation framework that removes the need for seed instructions. AutoRed operates in two stages: (1) persona-guided adversarial instruction generation, and (2) a reflection loop to iteratively refine low-quality prompts. To improve efficiency, we introduce a verifier to assess prompt harmfulness without querying the target models. Using AutoRed, we build two red teaming datasets -- AutoRed-Medium and AutoRed-Hard -- and evaluate eight state-of-the-art LLMs. AutoRed achieves higher attack success rates and better generalization than existing baselines. Our results highlight the limitations of seed-based approaches and demonstrate the potential of free-form red teaming for LLM safety evaluation. We will open source our datasets in the near future.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性は、信頼できるAIアプリケーションの開発に不可欠である。
既存のレッド・チームリング法は、しばしばシード命令に依存しており、合成された敵のプロンプトの意味的な多様性を制限している。
我々は,シード命令の必要をなくす自由形式の逆プロンプト生成フレームワークであるAutoRedを提案する。
AutoRedは,(1)ペルソナ誘導型対向命令生成と(2)低品質プロンプトを反復的に洗練するためのリフレクションループの2段階で動作する。
効率を向上させるために,ターゲットモデルに問い合わせることなく早期の有害性を評価する検証器を導入する。
AutoRedを使用することで、AutoRed-MediumとAutoRed-Hardという2つのレッドチームデータセットを構築し、最先端の8つのLMを評価します。
AutoRedは、既存のベースラインよりも高い攻撃成功率とより良い一般化を実現している。
本研究は, シードベースアプローチの限界を強調し, LLM安全性評価のための自由形レッドチームの可能性を示した。
近い将来、データセットをオープンソース化します。
関連論文リスト
- Automatic LLM Red Teaming [18.044879441434432]
我々は、AIを戦略的に破壊するように訓練する、新しいパラダイムを提案する。
生成エージェントは、きめ細かいトークンレベルのハーネス報酬を通じて、コヒーレントで多ターン攻撃戦略を学習する。
このアプローチは、ダイナミックな軌道ベースのプロセスとして、新しい最先端、根本的にリフレーミングなレッドチームを設定する。
論文 参考訳(メタデータ) (2025-08-06T13:52:00Z) - CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [61.404771120828244]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。
ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。
先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文 参考訳(メタデータ) (2025-06-01T02:18:41Z) - AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration [40.350632196772466]
本稿では,大規模言語モデル(LLM)に対する完全自動化とエンドツーエンドのレッドコラボレーションのための新しいフレームワークであるAutoRedTeamerを紹介する。
AutoRedTeamerはマルチエージェントアーキテクチャとメモリ誘導型攻撃選択機構を組み合わせることで、新たな攻撃ベクトルの継続的な発見と統合を可能にする。
我々は、さまざまな評価設定でAutoRedTeamerの有効性を示し、HarmBenchのLlama-3.1-70Bに対する攻撃成功率を20%向上させた。
論文 参考訳(メタデータ) (2025-03-20T00:13:04Z) - Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming [24.303849271284676]
Red Teamingは,Large Language Models(LLMs)から有害な応答を引き出す可能性のあるプロンプトを見つけることを目的とする。
広さと深さの両面にわたるレッド・チーム・プロンプトを進化させるスケーラブルな進化フレームワークRTPEを提案する。
RTPEは攻撃成功率と多様性の両方において、既存の代表的自動レッドチーム法を超越している。
論文 参考訳(メタデータ) (2025-02-22T06:13:19Z) - Text-Diffusion Red-Teaming of Large Language Models: Unveiling Harmful Behaviors with Proximity Constraints [20.542545906686318]
テキスト拡散モデルにインスパイアされたブラックボックスのレッドチーム方式: 監査とレッドチームのための拡散(DART)について紹介する。
DARTは、それを埋め込み空間に摂動させ、導入した変更量を直接制御することで参照プロンプトを変更する。
以上の結果より,DARTは基準プロンプトに近接して有害な入力を発見できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-14T16:32:01Z) - Gradient-Based Language Model Red Teaming [9.972783485792885]
Red Teamingは、ジェネレーティブ言語モデル(LM)の弱点を特定するための戦略である
レッド・チームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。
我々は、LMが安全でない応答を出力する可能性のある多様なプロンプトを自動生成する、GBRT(Gradient-Based Red Teaming)を提案する。
論文 参考訳(メタデータ) (2024-01-30T01:19:25Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。