論文の概要: Red Teaming AI Red Teaming
- arxiv url: http://arxiv.org/abs/2507.05538v1
- Date: Mon, 07 Jul 2025 23:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.451372
- Title: Red Teaming AI Red Teaming
- Title(参考訳): Red Teaming AI Red Teaming
- Authors: Subhabrata Majumdar, Brian Pendleton, Abhishek Gupta,
- Abstract要約: 我々は、レッド・チームリングの元々の意図と、生成的AIの文脈におけるモデルレベルの欠陥の発見に焦点を合わせることには、大きなギャップがあることを論じる。
マクロレベルのシステム・レッド・チームとマイクロレベルのモデル・レッド・チームという2つのレベルで、AIシステムにおけるレッド・チーム化を運用する包括的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.942581294959107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Red teaming has evolved from its origins in military applications to become a widely adopted methodology in cybersecurity and AI. In this paper, we take a critical look at the practice of AI red teaming. We argue that despite its current popularity in AI governance, there exists a significant gap between red teaming's original intent as a critical thinking exercise and its narrow focus on discovering model-level flaws in the context of generative AI. Current AI red teaming efforts focus predominantly on individual model vulnerabilities while overlooking the broader sociotechnical systems and emergent behaviors that arise from complex interactions between models, users, and environments. To address this deficiency, we propose a comprehensive framework operationalizing red teaming in AI systems at two levels: macro-level system red teaming spanning the entire AI development lifecycle, and micro-level model red teaming. Drawing on cybersecurity experience and systems theory, we further propose a set of recommendations. In these, we emphasize that effective AI red teaming requires multifunctional teams that examine emergent risks, systemic vulnerabilities, and the interplay between technical and social factors.
- Abstract(参考訳): 赤のチームリングは、軍事アプリケーションの起源から、サイバーセキュリティとAIで広く採用されている方法論へと進化してきた。
本稿では,AI赤外チームリングの実践を批判的に考察する。
私たちは、AIガバナンスで現在人気があるにもかかわらず、批判的思考運動としてのレッド・チームリングの元々の意図と、生成的AIの文脈におけるモデルレベルの欠陥を発見することの狭さの間には、大きなギャップがある、と論じています。
現在のAIのレッドチーム活動は、主に個々のモデルの脆弱性に焦点を当て、モデル、ユーザ、環境間の複雑な相互作用から生じるより広範な社会技術システムや創発的な振る舞いを見下ろしている。
この欠陥に対処するため、我々は、AIシステムにおけるレッドチーム運用を2段階に分けて、マクロレベルのシステムレッドチーム、AI開発ライフサイクル全体にわたるマクロレベルのシステムレッドチーム、マイクロレベルのモデルレッドチームという、包括的なフレームワークを提案する。
サイバーセキュリティの経験とシステム理論に基づいて、我々はさらに一連のレコメンデーションを提案する。
これらの中で、効果的なAIレッドチーム化には、創発的なリスク、システム的脆弱性、技術的要因と社会的要因の相互作用を調べる多機能チームが必要である、と強調する。
関連論文リスト
- CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [61.404771120828244]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。
ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。
先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文 参考訳(メタデータ) (2025-06-01T02:18:41Z) - AI red-teaming is a sociotechnical challenge: on values, labor, and harms [3.0001147629373195]
赤いチーム」がAIモデルをテストするための主要なアプローチになった。
私たちは、レッドチームの背後にある価値と前提を理解することの重要性を強調します。
論文 参考訳(メタデータ) (2024-12-12T22:48:19Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - Red-Teaming for Generative AI: Silver Bullet or Security Theater? [42.35800543892003]
我々は、赤いチーム化は、GenAIの有害な軽減を特徴付ける上で価値のある大胆なアイデアであるが、業界はAIを保護するために、閉じたドアの後ろでレッドチームやその他の戦略を効果的に適用するかもしれないと論じている。
生成AIの評価のより堅牢なツールボックスに向けて、私たちは、私たちの推奨事項を、将来のAI赤チームプラクティスをガイドし、足場にすることを目的とした質問銀行に合成します。
論文 参考訳(メタデータ) (2024-01-29T05:46:14Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。