論文の概要: Persona-Conditioned Adversarial Prompting: Multi-Identity Red-Teaming for Adversarial Discovery and Mitigation
- arxiv url: http://arxiv.org/abs/2605.11730v1
- Date: Tue, 12 May 2026 08:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.698236
- Title: Persona-Conditioned Adversarial Prompting: Multi-Identity Red-Teaming for Adversarial Discovery and Mitigation
- Title(参考訳): 対人一貫した対人プロンプティング:対人発見と緩和のためのマルチアイデンティティ・リチーム
- Authors: Cristian Morasso, Anisa Halimi, Muhammad Zaid Hameed, Douglas Leith,
- Abstract要約: 多様な攻撃者に対する対人対応型対人プロンプティング条件
GPT-OSS 120Bでは、PCAPは攻撃成功率を57%から97%に引き上げている。
PCAP生成データ上の微調整軽量アダプタは、モデルロバスト性を大幅に改善する。
- 参考スコア(独自算出の注目度): 0.5708846562058547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated red-teaming for LLMs often discovers narrow attack slices, missing diverse real-world threats, and yielding insufficient data for safety fine-tuning. We introduce Persona-Conditioned Adversarial Prompting (PCAP), which conditions adversarial search on diverse attacker personas (e.g., doctors, students, malicious actors) and strategy sets to explore realistic attack scenarios. By running parallel persona-conditioned searches, PCAP discovers transferable jailbreaks across different contexts and generates rich defense datasets with automatic metadata tracking. On GPT-OSS 120B, PCAP increases attack success from 57\% to 97\% while producing 2-6$\times$ more diverse prompts covering varied real-world scenarios. Critically, fine-tuning lightweight adapters on PCAP-generated data significantly improves model robustness (recall: 0.36 $\rightarrow$ 0.99, F1: 0.53 $\rightarrow$ 0.96) with minimal false positives, demonstrating a practical closed-loop approach from vulnerability discovery to automated alignment.
- Abstract(参考訳): LLMの自動化されたリピートは、しばしば狭い攻撃スライスを発見し、様々な現実世界の脅威を見逃し、安全の微調整のために不十分なデータを生成する。
本稿では, 多様な攻撃者(医師, 学生, 悪質な俳優など)を相手に, 現実的な攻撃シナリオを探索するための戦略セットであるPCAP(Persona-Conditioned Adversarial Prompting)を紹介する。
並列ペルソナ条件付き検索を実行することで、PCAPは異なるコンテキストにわたる転送可能なジェイルブレイクを発見し、メタデータの自動トラッキングを備えたリッチディフェンスデータセットを生成する。
GPT-OSS 120Bでは、PCAPは攻撃成功率を57\%から97\%に引き上げ、実際のさまざまなシナリオをカバーする2-6$\times$より多様なプロンプトを生成する。
批判的に、PCAP生成データ上の微調整軽量アダプタはモデル堅牢性(リコール: 0.36 $\rightarrow$ 0.99, F1: 0.53 $\rightarrow$ 0.96)を最小限の偽陽性で改善し、脆弱性発見から自動アライメントまでの実用的なクローズループアプローチを示している。
関連論文リスト
- Beyond Pattern Matching: Seven Cross-Domain Techniques for Prompt Injection Detection [0.0]
本研究は,大言語以外の分野から特定のメカニズムを移植する7つの検出手法を提案する。
7つのテクニックのうち3つは、プロンプトシールドv0.4.1リリース(Apache 2.0)で実装され、6つのデータセットにわたる4つの設定アブレーションで評価されている。
論文 参考訳(メタデータ) (2026-04-20T13:27:05Z) - AI Evasion and Impersonation Attacks on Facial Re-Identification with Activation Map Explanations [13.564481603680838]
本稿では,回避攻撃と偽装攻撃の両方が可能な敵パッチを生成するための新しい枠組みを提案する。
我々は,条件付きエンコーダ・デコーダネットワークを用いて,ソース画像とターゲット画像からのマルチスケール特徴を導出して,逆パッチを1つのフォワードパスで合成する。
我々のフレームワークはCelebA-HQで27%の成功率を獲得し、他のパッチベースの手法と競合する。
論文 参考訳(メタデータ) (2026-03-16T15:12:41Z) - StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors [0.0]
StealthRLはAIテキスト検出のための強化学習フレームワークである。
我々は,現実的な対向条件下で,マルチ検出器アンサンブルに対してパラフレーズポリシーを訓練する。
StealthRLはゼロに近い検出を実現し、平均AUROCを0.74から0.27に減らし、99.9%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2026-02-09T17:33:46Z) - SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks [53.97948802255959]
本稿では,既存の戦略や外部データに頼ることなく,マルチターン攻撃者を訓練するフレームワークを提案する。
準備された自己調整は、非拒否的で、よく構造化された、多ターンの逆のプロンプトを微調整することで、使用可能なロールアウトを可能にする。
私たちは、意図の整合性、コンプライアンスリスク、詳細レベルを組み合わせたインテントドリフト対応の報酬を通じて、多ターンジェイルブレイクにおける有害な意図を保ちます。
論文 参考訳(メタデータ) (2026-02-06T16:44:57Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z) - Sample Efficient Detection and Classification of Adversarial Attacks via
Self-Supervised Embeddings [40.332149464256496]
ディープモデルのアドリヤロバスト性は、現実世界の環境において安全な配置を確保する上で重要な要素である。
本稿では、敵攻撃を検知し、それらの脅威モデルに分類する自己教師型手法を提案する。
我々は,SimCLRエンコーダを実験で使用しています。
論文 参考訳(メタデータ) (2021-08-30T16:39:52Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。