論文の概要: PersonaTeaming: Supporting Persona-Driven Red-Teaming for Generative AI
- arxiv url: http://arxiv.org/abs/2605.05682v1
- Date: Thu, 07 May 2026 05:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.526035
- Title: PersonaTeaming: Supporting Persona-Driven Red-Teaming for Generative AI
- Title(参考訳): Persona Teaming: ジェネレーティブAIのためのペルソナ駆動のレッドチームを支援する
- Authors: Wesley Hanwen Deng, Mingxi Yan, Sunnie S. Y. Kim, Akshita Jha, Lauren Wilcox, Kenneth Holstein, Motahhare Eslami, Leon A. Gatys,
- Abstract要約: 我々はペルソナを対向的なプロンプト生成プロセスに組み込むペルソナチームを開発する。
次に、PersonaTeamingをPersonaTeaming Playgroundとしてインスタンス化します。
業界実践者11名を対象に行ったユーザスタディでは,PersonaTeaming Playgroundが,実践者が有用だと感じたさまざまなレッドチーム戦略とアウトプットを可能にした。
- 参考スコア(独自算出の注目度): 28.268811472721996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in AI safety research have called for red-teaming methods that effectively surface potential risks posed by generative AI models, with growing emphasis on how red-teamers' backgrounds and perspectives shape their strategies and the risks they uncover. While automated red-teaming approaches promise to complement human red-teaming through larger-scale exploration, existing automated approaches do not account for human identities and rarely incorporate human inputs. In this work, we explore persona-driven red-teaming to advance both automated red-teaming and human-AI collaboration. We first develop PersonaTeaming Workflow, which incorporates personas into the adversarial prompt generation process to explore a wider spectrum of adversarial strategies. Compared to RainbowPlus, a state-of-the-art automated red-teaming method, PersonaTeaming Workflow achieves higher attack success rates while maintaining prompt diversity. However, since automated personas only approximate real human perspectives, we further instantiate PersonaTeaming Workflow as PersonaTeaming Playground, a user-facing interface that enables red-teamers to author their own personas and collaborate with AI to mutate and refine prompts. In a user study with 11 industry practitioners, we found that PersonaTeaming Playground enabled diverse red-teaming strategies and outputs that practitioners perceived as useful, and that AI-generated suggestions in the PersonaTeaming Playground encouraged out-of-the-box thinking even when practitioners did not follow them strictly. Together, our work advances both automated and human-in-the-loop approaches to red-teaming, while shedding light on interaction patterns and design insights for supporting human-AI collaboration in generative AI red-teaming.
- Abstract(参考訳): AI安全研究の最近の進歩は、生成的AIモデルによって引き起こされる潜在的なリスクを効果的に表面化する、赤チームの背景と視点が彼らの戦略と彼らが発見するリスクをいかに形作るかに重点を置いている。
自動化された赤チームアプローチは、大規模な探索を通じて人間の赤チームの補完を約束するが、既存の自動化アプローチは人間のアイデンティティを考慮せず、人間の入力を組み込むことは滅多にない。
本研究では,人手駆動のレッドチームについて,自動化されたレッドチームと人間とAIのコラボレーションの促進について検討する。
我々はまず,ペルソナを対人的プロンプト生成プロセスに組み込んだペルソナコラボレーションワークフローを開発し,より幅広い対人的戦略を探索する。
最先端の自動化赤チーム方式であるRainbowPlusと比較して、ペルソナチームワークフローは、迅速な多様性を維持しながら、より高い攻撃成功率を達成する。
しかし、自動化されたペルソナは実際の人間の視点にのみ近似するため、さらにPersonaTeaming WorkflowをPersonaTeaming Playgroundとしてインスタンス化する。
その結果,PersonaTeaming Playgroundのユーザスタディでは,PersonaTeaming Playgroundは,実践者が有用と認識した多様な赤チーム戦略とアウトプットを可能にし,PersonaTeaming PlaygroundのAI生成提案は,実践者が厳格にフォローしていない場合でも,アウト・オブ・ボックス思考を奨励していることがわかった。
当社の作業は、自動と人道へのアプローチの両方をレッドチームに進めると同時に、AI生成における人間とAIのコラボレーションを支援するためのインタラクションパターンとデザインの洞察に光を当てています。
関連論文リスト
- PersonaTeaming: Exploring How Introducing Personas Can Improve Automated AI Red-Teaming [22.601361185100235]
ペルソナチーム(Persona Teaming)は、自動化されたリチームに人々のバックグラウンドとアイデンティティを統合するための最初のステップである。
本研究では,異なるシードプロンプトに適応した様々なペルソナを自動生成する動的ペルソナ生成アルゴリズムを開発した。
実験では、ペルソナ突然変異による敵のプロンプトの攻撃成功率において、有望な改善(最大144.1%)を示す。
論文 参考訳(メタデータ) (2025-09-03T21:20:38Z) - Red Teaming AI Red Teaming [11.08584572589146]
我々は、レッド・チームリングの元々の意図と、生成的AIの文脈におけるモデルレベルの欠陥の発見に焦点を合わせることには、大きなギャップがあることを論じる。
マクロレベルのシステム・レッド・チームとマイクロレベルのモデル・レッド・チームという2つのレベルで、AIシステムにおけるレッド・チーム化を運用する包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T23:23:40Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - From Persona to Personalization: A Survey on Role-Playing Language Agents [52.783043059715546]
大規模言語モデル(LLM)の最近の進歩はロールプレイング言語エージェント(RPLA)の台頭を後押ししている。
RPLAは、人間の類似性と鮮明なロールプレイングパフォーマンスの素晴らしい感覚を達成します。
彼らは感情的な仲間、インタラクティブなビデオゲーム、パーソナライズされたアシスタント、コピロなど、多くのAI応用を触媒してきた。
論文 参考訳(メタデータ) (2024-04-28T15:56:41Z) - Red-Teaming for Generative AI: Silver Bullet or Security Theater? [42.35800543892003]
我々は、赤いチーム化は、GenAIの有害な軽減を特徴付ける上で価値のある大胆なアイデアであるが、業界はAIを保護するために、閉じたドアの後ろでレッドチームやその他の戦略を効果的に適用するかもしれないと論じている。
生成AIの評価のより堅牢なツールボックスに向けて、私たちは、私たちの推奨事項を、将来のAI赤チームプラクティスをガイドし、足場にすることを目的とした質問銀行に合成します。
論文 参考訳(メタデータ) (2024-01-29T05:46:14Z) - The Promise and Peril of Artificial Intelligence -- Violet Teaming
Offers a Balanced Path Forward [56.16884466478886]
本稿では、不透明で制御不能なAIシステムにおける新興問題についてレビューする。
信頼性と責任のあるAIを開発するために、紫外チームと呼ばれる統合フレームワークを提案する。
それは、設計によって積極的にリスクを管理するためのAI安全研究から生まれた。
論文 参考訳(メタデータ) (2023-08-28T02:10:38Z) - Joint Mind Modeling for Explanation Generation in Complex Human-Robot
Collaborative Tasks [83.37025218216888]
本稿では,人間とロボットのコラボレーションにおいて,人間のようなコミュニケーションを実現するための新しい説明可能なAI(XAI)フレームワークを提案する。
ロボットは、人間のユーザの階層的なマインドモデルを構築し、コミュニケーションの一形態として自身のマインドの説明を生成する。
その結果,提案手法はロボットの協調動作性能とユーザ認識を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-07-24T23:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。