論文の概要: PersonaTeaming: Exploring How Introducing Personas Can Improve Automated AI Red-Teaming
- arxiv url: http://arxiv.org/abs/2509.03728v1
- Date: Wed, 03 Sep 2025 21:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.973886
- Title: PersonaTeaming: Exploring How Introducing Personas Can Improve Automated AI Red-Teaming
- Title(参考訳): Persona Teaming: ペルソナの導入によってAIの自動化が改善される方法を探る
- Authors: Wesley Hanwen Deng, Sunnie S. Y. Kim, Akshita Jha, Ken Holstein, Motahhare Eslami, Lauren Wilcox, Leon A Gatys,
- Abstract要約: ペルソナチーム(Persona Teaming)は、自動化されたリチームに人々のバックグラウンドとアイデンティティを統合するための最初のステップである。
本研究では,異なるシードプロンプトに適応した様々なペルソナを自動生成する動的ペルソナ生成アルゴリズムを開発した。
実験では、ペルソナ突然変異による敵のプロンプトの攻撃成功率において、有望な改善(最大144.1%)を示す。
- 参考スコア(独自算出の注目度): 22.601361185100235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in AI governance and safety research have called for red-teaming methods that can effectively surface potential risks posed by AI models. Many of these calls have emphasized how the identities and backgrounds of red-teamers can shape their red-teaming strategies, and thus the kinds of risks they are likely to uncover. While automated red-teaming approaches promise to complement human red-teaming by enabling larger-scale exploration of model behavior, current approaches do not consider the role of identity. As an initial step towards incorporating people's background and identities in automated red-teaming, we develop and evaluate a novel method, PersonaTeaming, that introduces personas in the adversarial prompt generation process to explore a wider spectrum of adversarial strategies. In particular, we first introduce a methodology for mutating prompts based on either "red-teaming expert" personas or "regular AI user" personas. We then develop a dynamic persona-generating algorithm that automatically generates various persona types adaptive to different seed prompts. In addition, we develop a set of new metrics to explicitly measure the "mutation distance" to complement existing diversity measurements of adversarial prompts. Our experiments show promising improvements (up to 144.1%) in the attack success rates of adversarial prompts through persona mutation, while maintaining prompt diversity, compared to RainbowPlus, a state-of-the-art automated red-teaming method. We discuss the strengths and limitations of different persona types and mutation methods, shedding light on future opportunities to explore complementarities between automated and human red-teaming approaches.
- Abstract(参考訳): AIガバナンスと安全研究の最近の進歩は、AIモデルによって引き起こされる潜在的なリスクを効果的に表面化する、レッドチーム方式を提唱している。
これらのコールの多くは、レッドチームのアイデンティティとバックグラウンドが、どのようにしてレッドチームの戦略を形成することができるかを強調している。
自動化された赤チームのアプローチは、モデル行動の大規模探索を可能にすることで、人間の赤チームの補完を約束するが、現在のアプローチではアイデンティティの役割を考慮していない。
自動リピートに人々のバックグラウンドとアイデンティティを組み込むための最初のステップとして,対人プロンプト生成プロセスにペルソナを導入し,より広い範囲の対人戦略を探求するペルソナチーム(Persona Teaming)を開発し,評価する。
特に、我々はまず、"red-teaming expert"ペルソナまたは"regular AI user"ペルソナに基づいてプロンプトを変更するための方法論を導入する。
そこで我々は,異なるシードプロンプトに適応した様々なペルソナを自動生成する動的ペルソナ生成アルゴリズムを開発した。
さらに,既存の多様性測定を補完する「変異距離」を明示的に測定する新しい指標のセットを開発する。
実験の結果, 対人的突然変異による攻撃成功率144.1%, 即時多様性を維持しつつも, 対人的突然変異による攻撃成功率に有望な改善が認められた。
我々は、異なるペルソナタイプと突然変異法の長所と短所を議論し、自動化されたチームと人間のレッドチームアプローチの相補性を探求する将来の機会に光を当てる。
関連論文リスト
- Automatic LLM Red Teaming [18.044879441434432]
我々は、AIを戦略的に破壊するように訓練する、新しいパラダイムを提案する。
生成エージェントは、きめ細かいトークンレベルのハーネス報酬を通じて、コヒーレントで多ターン攻撃戦略を学習する。
このアプローチは、ダイナミックな軌道ベースのプロセスとして、新しい最先端、根本的にリフレーミングなレッドチームを設定する。
論文 参考訳(メタデータ) (2025-08-06T13:52:00Z) - Red Teaming AI Red Teaming [9.942581294959107]
我々は、レッド・チームリングの元々の意図と、生成的AIの文脈におけるモデルレベルの欠陥の発見に焦点を合わせることには、大きなギャップがあることを論じる。
マクロレベルのシステム・レッド・チームとマイクロレベルのモデル・レッド・チームという2つのレベルで、AIシステムにおけるレッド・チーム化を運用する包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T23:23:40Z) - Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming [24.303849271284676]
Red Teamingは,Large Language Models(LLMs)から有害な応答を引き出す可能性のあるプロンプトを見つけることを目的とする。
広さと深さの両面にわたるレッド・チーム・プロンプトを進化させるスケーラブルな進化フレームワークRTPEを提案する。
RTPEは攻撃成功率と多様性の両方において、既存の代表的自動レッドチーム法を超越している。
論文 参考訳(メタデータ) (2025-02-22T06:13:19Z) - Automated Red Teaming with GOAT: the Generative Offensive Agent Tester [8.947465706080523]
Red Teamingは、安全トレーニング中に設定された規範やポリシー、ルールに違反したコンテンツを、大規模な言語モデルがいかに生成できるかを評価する。
文献における既存の自動化手法のほとんどは、人間がAIモデルと対話する傾向を示すものではない。
本稿では,非言語的会話をシミュレートする自動エージェントレッド・チーム・システムであるジェネレーティブ・オッサンティブ・エージェント・テスタ(GOAT)を紹介する。
論文 参考訳(メタデータ) (2024-10-02T14:47:05Z) - Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。
提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T09:44:48Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts [57.49685172971446]
敵のプロンプトを多種多様に集めるための新しいブラックボックスアプローチであるレインボー・ブッキングを紹介する。
提案手法では, 攻撃成功率が90%を超え, 効果的に対抗できるプロンプトが何百もあることが明らかとなった。
さらに、質問応答とサイバーセキュリティに適用することで、レインボーチーム(Rainbow Teaming)の汎用性についても検討する。
論文 参考訳(メタデータ) (2024-02-26T18:47:27Z) - Red-Teaming for Generative AI: Silver Bullet or Security Theater? [42.35800543892003]
我々は、赤いチーム化は、GenAIの有害な軽減を特徴付ける上で価値のある大胆なアイデアであるが、業界はAIを保護するために、閉じたドアの後ろでレッドチームやその他の戦略を効果的に適用するかもしれないと論じている。
生成AIの評価のより堅牢なツールボックスに向けて、私たちは、私たちの推奨事項を、将来のAI赤チームプラクティスをガイドし、足場にすることを目的とした質問銀行に合成します。
論文 参考訳(メタデータ) (2024-01-29T05:46:14Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。