論文の概要: From Firewalls to Frontiers: AI Red-Teaming is a Domain-Specific Evolution of Cyber Red-Teaming
- arxiv url: http://arxiv.org/abs/2509.11398v1
- Date: Sun, 14 Sep 2025 19:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.067446
- Title: From Firewalls to Frontiers: AI Red-Teaming is a Domain-Specific Evolution of Cyber Red-Teaming
- Title(参考訳): ファイアウォールからフロンティアへ:AIレッドチームとはサイバーレッドチームというドメイン固有の進化
- Authors: Anusha Sinha, Keltin Grimes, James Lucassen, Michael Feffer, Nathan VanHoudnos, Zhiwei Steven Wu, Hoda Heidari,
- Abstract要約: 赤いチームは敵の攻撃をシミュレートし、防御者がシステムを守る効果的な戦略を見つけるのを助ける。
AIのレッドチーム化が、サイバーのレッドチーム化のドメイン固有の進化であると認識されれば、AIシステムはより効果的にレッドチーム化できる、と私たちは主張する。
- 参考スコア(独自算出の注目度): 21.957207711016384
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A red team simulates adversary attacks to help defenders find effective strategies to defend their systems in a real-world operational setting. As more enterprise systems adopt AI, red-teaming will need to evolve to address the unique vulnerabilities and risks posed by AI systems. We take the position that AI systems can be more effectively red-teamed if AI red-teaming is recognized as a domain-specific evolution of cyber red-teaming. Specifically, we argue that existing Cyber Red Teams who adopt this framing will be able to better evaluate systems with AI components by recognizing that AI poses new risks, has new failure modes to exploit, and often contains unpatchable bugs that re-prioritize disclosure and mitigation strategies. Similarly, adopting a cybersecurity framing will allow existing AI Red Teams to leverage a well-tested structure to emulate realistic adversaries, promote mutual accountability with formal rules of engagement, and provide a pattern to mature the tooling necessary for repeatable, scalable engagements. In these ways, the merging of AI and Cyber Red Teams will create a robust security ecosystem and best position the community to adapt to the rapidly changing threat landscape.
- Abstract(参考訳): 赤いチームは敵の攻撃をシミュレートし、現実の運用環境でシステムを守る効果的な戦略を見つけるのに役立つ。
より多くのエンタープライズシステムがAIを採用するにつれて、AIシステムによって引き起こされるユニークな脆弱性とリスクに対処するためには、レッドチームの進化が必要だ。
AIのレッドチーム化が、サイバーのレッドチーム化のドメイン固有の進化であると認識されれば、AIシステムはより効果的にレッドチーム化できるという立場を取る。
具体的には、このフレーミングを採用した既存のサイバーレッドチームは、AIが新たなリスクを生じ、利用するための新しい障害モードがあることを認識し、開示と緩和戦略を再優先順位付けする未解決のバグを含むことにより、AIコンポーネントによるシステム評価をより良くすることが可能になる、と論じています。
同様に、サイバーセキュリティの枠組みを採用することで、既存のAI Red Teamsは、十分にテストされた構造を利用して、現実的な敵をエミュレートし、正式なエンゲージメントのルールで相互説明責任を促進し、反復可能でスケーラブルなエンゲージメントに必要なツールを成熟させるパターンを提供する。
このような方法で、AIとサイバーレッドチームの合併は、堅牢なセキュリティエコシステムを作り、急速に変化する脅威の状況に適応するために、コミュニティを最善を尽くすことになる。
関連論文リスト
- Automatic LLM Red Teaming [18.044879441434432]
我々は、AIを戦略的に破壊するように訓練する、新しいパラダイムを提案する。
生成エージェントは、きめ細かいトークンレベルのハーネス報酬を通じて、コヒーレントで多ターン攻撃戦略を学習する。
このアプローチは、ダイナミックな軌道ベースのプロセスとして、新しい最先端、根本的にリフレーミングなレッドチームを設定する。
論文 参考訳(メタデータ) (2025-08-06T13:52:00Z) - When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems [78.04679174291329]
悪意のあるマルチエージェントシステム(MAS)のリスクをシミュレートするための概念実証手法を提案する。
この枠組みを、誤情報拡散とeコマース詐欺という2つのリスクの高い分野に適用する。
その結果,分散システムの方が,集中型システムよりも悪意ある行動を実行するのに効果的であることが示唆された。
論文 参考訳(メタデータ) (2025-07-19T15:17:30Z) - Red Teaming AI Red Teaming [9.942581294959107]
我々は、レッド・チームリングの元々の意図と、生成的AIの文脈におけるモデルレベルの欠陥の発見に焦点を合わせることには、大きなギャップがあることを論じる。
マクロレベルのシステム・レッド・チームとマイクロレベルのモデル・レッド・チームという2つのレベルで、AIシステムにおけるレッド・チーム化を運用する包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T23:23:40Z) - CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [61.404771120828244]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。
ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。
先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文 参考訳(メタデータ) (2025-06-01T02:18:41Z) - A Red Teaming Roadmap Towards System-Level Safety [15.193906652918884]
要求拒否を実装するLLM(Large Language Model)セーフガードは、誤用に対する緩和戦略として広く採用されている。
敵の機械学習とAIの安全性の交差点で、保護された赤いチーム分けは、最先端の拒絶訓練されたLLMの重大な脆弱性を効果的に特定した。
明確な製品安全仕様に対するテストは、抽象的な社会的バイアスや倫理的原則よりも優先すべきである、と我々は主張する。
論文 参考訳(メタデータ) (2025-05-30T22:58:54Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - Red-Teaming for Generative AI: Silver Bullet or Security Theater? [42.35800543892003]
我々は、赤いチーム化は、GenAIの有害な軽減を特徴付ける上で価値のある大胆なアイデアであるが、業界はAIを保護するために、閉じたドアの後ろでレッドチームやその他の戦略を効果的に適用するかもしれないと論じている。
生成AIの評価のより堅牢なツールボックスに向けて、私たちは、私たちの推奨事項を、将来のAI赤チームプラクティスをガイドし、足場にすることを目的とした質問銀行に合成します。
論文 参考訳(メタデータ) (2024-01-29T05:46:14Z) - A Red Teaming Framework for Securing AI in Maritime Autonomous Systems [0.0]
海上自律システムのAIセキュリティを評価するための,最初のレッドチームフレームワークを提案する。
このフレームワークはマルチパートのチェックリストであり、異なるシステムや要件に合わせて調整できる。
私たちはこのフレームワークが、現実の海上自律システムAI内の多数の脆弱性を明らかにするために、レッドチームにとって非常に効果的であることを実証しています。
論文 参考訳(メタデータ) (2023-12-08T14:59:07Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。