論文の概要: A Red Teaming Roadmap Towards System-Level Safety
- arxiv url: http://arxiv.org/abs/2506.05376v1
- Date: Fri, 30 May 2025 22:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.102319
- Title: A Red Teaming Roadmap Towards System-Level Safety
- Title(参考訳): システムレベル安全に向けたレッドチームロードマップ
- Authors: Zifan Wang, Christina Q. Knight, Jeremy Kritz, Willow E. Primack, Julian Michael,
- Abstract要約: 要求拒否を実装するLLM(Large Language Model)セーフガードは、誤用に対する緩和戦略として広く採用されている。
敵の機械学習とAIの安全性の交差点で、保護された赤いチーム分けは、最先端の拒絶訓練されたLLMの重大な脆弱性を効果的に特定した。
明確な製品安全仕様に対するテストは、抽象的な社会的バイアスや倫理的原則よりも優先すべきである、と我々は主張する。
- 参考スコア(独自算出の注目度): 15.193906652918884
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) safeguards, which implement request refusals, have become a widely adopted mitigation strategy against misuse. At the intersection of adversarial machine learning and AI safety, safeguard red teaming has effectively identified critical vulnerabilities in state-of-the-art refusal-trained LLMs. However, in our view the many conference submissions on LLM red teaming do not, in aggregate, prioritize the right research problems. First, testing against clear product safety specifications should take a higher priority than abstract social biases or ethical principles. Second, red teaming should prioritize realistic threat models that represent the expanding risk landscape and what real attackers might do. Finally, we contend that system-level safety is a necessary step to move red teaming research forward, as AI models present new threats as well as affordances for threat mitigation (e.g., detection and banning of malicious users) once placed in a deployment context. Adopting these priorities will be necessary in order for red teaming research to adequately address the slate of new threats that rapid AI advances present today and will present in the very near future.
- Abstract(参考訳): 要求拒否を実装するLLM(Large Language Model)セーフガードは、誤用に対する緩和戦略として広く採用されている。
敵の機械学習とAIの安全性の交差点で、保護された赤いチーム分けは、最先端の拒絶訓練されたLLMの重大な脆弱性を効果的に特定した。
しかし、我々の見解では、LLMのレッドチーム化に関する多くの会議は、総合的に、適切な研究問題を優先順位付けしていない。
まず、明確な製品安全仕様に対するテストは、抽象的な社会的バイアスや倫理的原則よりも優先すべきである。
第2に、レッドチームでは、拡大するリスクランドスケープと、実際の攻撃者が何をするかを表す、現実的な脅威モデルを優先順位付けする必要があります。
最後に、システムレベルの安全性は、レッドチーム研究を前進させるために必要なステップである、と我々は主張する。AIモデルは、デプロイコンテキストに一度置かれた脅威の軽減(悪意のあるユーザの検出と禁止)と、新たな脅威を提示する。
これらの優先順位を採用するためには、現在AIが急速に進歩し、近い将来に現れる新たな脅威のスレートに適切に対処するために、レッドチームによる研究を行う必要がある。
関連論文リスト
- CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [61.404771120828244]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。
ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。
先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文 参考訳(メタデータ) (2025-06-01T02:18:41Z) - Securing Agentic AI: A Comprehensive Threat Model and Mitigation Framework for Generative AI Agents [0.0]
本稿では,GenAIエージェントに特化した包括的脅威モデルを提案する。
研究は、9つの主要な脅威を特定し、5つの主要なドメインにまたがってそれらを整理する。
論文 参考訳(メタデータ) (2025-04-28T16:29:24Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Red-Teaming for Generative AI: Silver Bullet or Security Theater? [42.35800543892003]
我々は、赤いチーム化は、GenAIの有害な軽減を特徴付ける上で価値のある大胆なアイデアであるが、業界はAIを保護するために、閉じたドアの後ろでレッドチームやその他の戦略を効果的に適用するかもしれないと論じている。
生成AIの評価のより堅牢なツールボックスに向けて、私たちは、私たちの推奨事項を、将来のAI赤チームプラクティスをガイドし、足場にすることを目的とした質問銀行に合成します。
論文 参考訳(メタデータ) (2024-01-29T05:46:14Z) - On the Security Risks of Knowledge Graph Reasoning [71.64027889145261]
我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。
我々は、このような脅威をインスタンス化する新しいタイプの攻撃であるROARを提示する。
ROARに対する潜在的な対策として,潜在的に有毒な知識のフィルタリングや,対向的な拡張クエリによるトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-05-03T18:47:42Z) - Adversarial Machine Learning Attacks and Defense Methods in the Cyber
Security Domain [58.30296637276011]
本稿では,機械学習技術に基づくセキュリティソリューションに対する敵攻撃に関する最新の研究を要約する。
サイバーセキュリティドメインでエンドツーエンドの敵攻撃を実装するという、ユニークな課題を議論するのは、これが初めてである。
論文 参考訳(メタデータ) (2020-07-05T18:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。