Fugu-MT 論文翻訳(概要): Red-Teaming for Generative AI: Silver Bullet or Security Theater?

論文の概要: Red-Teaming for Generative AI: Silver Bullet or Security Theater?

arxiv url: http://arxiv.org/abs/2401.15897v1
Date: Mon, 29 Jan 2024 05:46:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 15:50:19.702453
Title: Red-Teaming for Generative AI: Silver Bullet or Security Theater?
Title（参考訳）: ジェネレーティブAIのためのレッドチーム:銀の弾丸かセキュリティシアターか?
Authors: Michael Feffer, Anusha Sinha, Zachary C. Lipton, Hoda Heidari
Abstract要約: 我々は、AI産業における最近の赤チーム活動の事例を特定し、関連する研究文献を広範囲に調査し、AI赤チーム実践のスコープ、構造、基準を特徴づける。分析の結果,活動の目的,評価対象のアーティファクト,活動の実施状況,その結果の判断など,AIの事前の方法と実践が複数の軸に沿って分散していることが判明した。我々は、レッドチーム化は、GenAIモデルの行動改善を目的とした幅広い活動と態度を特徴付ける上で、価値ある大胆なアイデアであるかもしれないと論じる。
参考スコア（独自算出の注目度）: 48.14185138002871
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In response to rising concerns surrounding the safety, security, and trustworthiness of Generative AI (GenAI) models, practitioners and regulators alike have pointed to AI red-teaming as a key component of their strategies for identifying and mitigating these risks. However, despite AI red-teaming's central role in policy discussions and corporate messaging, significant questions remain about what precisely it means, what role it can play in regulation, and how precisely it relates to conventional red-teaming practices as originally conceived in the field of cybersecurity. In this work, we identify recent cases of red-teaming activities in the AI industry and conduct an extensive survey of the relevant research literature to characterize the scope, structure, and criteria for AI red-teaming practices. Our analysis reveals that prior methods and practices of AI red-teaming diverge along several axes, including the purpose of the activity (which is often vague), the artifact under evaluation, the setting in which the activity is conducted (e.g., actors, resources, and methods), and the resulting decisions it informs (e.g., reporting, disclosure, and mitigation). In light of our findings, we argue that while red-teaming may be a valuable big-tent idea for characterizing a broad set of activities and attitudes aimed at improving the behavior of GenAI models, gestures towards red-teaming as a panacea for every possible risk verge on security theater. To move toward a more robust toolbox of evaluations for generative AI, we synthesize our recommendations into a question bank meant to guide and scaffold future AI red-teaming practices.
Abstract（参考訳）: ジェネレーティブAI(GenAI)モデルの安全性、セキュリティ、信頼性に関する懸念の高まりに対して、実践者や規制当局は、これらのリスクを特定し緩和するための戦略の重要な要素として、AIのリピートを挙げている。しかし、ポリシー議論やコーポレートメッセージングにおけるaiのレッドチーム化の中心的役割にもかかわらず、その正確な意味、規制におけるそれが果たす役割、そしてそれがサイバーセキュリティの分野で当初考えられた従来のレッドチーム化プラクティスとどのように密接に関連しているかについて、重要な疑問が残っている。本研究では,AI産業における赤チーム活動の最近の事例を特定し,関連する研究文献を広範囲に調査し,AI赤チーム実践のスコープ,構造,基準を特徴づける。分析の結果,AIの事前の手法と実践は,活動の目的(しばしば曖昧である),評価対象の成果物(アクター,リソース,メソッドなど),そしてそれが通知する決定(報告,開示,緩和など)など,複数の軸に沿って分散していることが明らかとなった。我々の知見を踏まえて、我々は、GenAIモデルの振る舞いを改善するための幅広い活動と態度を特徴付ける上で、レッドチーム化は価値ある大胆なアイデアであるかもしれない、と論じる。生成型aiのより堅牢な評価ツールボックスに移行するために、私たちは、将来のaiレッドチームプラクティスを指導し構築するための質問バンクに、推奨事項を合成します。

関連論文リスト

Red Teaming AI Red Teaming [9.942581294959107]
我々は、レッド・チームリングの元々の意図と、生成的AIの文脈におけるモデルレベルの欠陥の発見に焦点を合わせることには、大きなギャップがあることを論じる。マクロレベルのシステム・レッド・チームとマイクロレベルのモデル・レッド・チームという2つのレベルで、AIシステムにおけるレッド・チーム化を運用する包括的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-07T23:23:40Z)
CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [61.404771120828244]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文参考訳（メタデータ） (2025-06-01T02:18:41Z)
A Red Teaming Roadmap Towards System-Level Safety [15.193906652918884]
要求拒否を実装するLLM(Large Language Model)セーフガードは、誤用に対する緩和戦略として広く採用されている。敵の機械学習とAIの安全性の交差点で、保護された赤いチーム分けは、最先端の拒絶訓練されたLLMの重大な脆弱性を効果的に特定した。明確な製品安全仕様に対するテストは、抽象的な社会的バイアスや倫理的原則よりも優先すべきである、と我々は主張する。
論文参考訳（メタデータ） (2025-05-30T22:58:54Z)
Securing Agentic AI: A Comprehensive Threat Model and Mitigation Framework for Generative AI Agents [0.0]
本稿では,GenAIエージェントに特化した包括的脅威モデルを提案する。研究は、9つの主要な脅威を特定し、5つの主要なドメインにまたがってそれらを整理する。
論文参考訳（メタデータ） (2025-04-28T16:29:24Z)
Effective Automation to Support the Human Infrastructure in AI Red Teaming [5.463538170874778]
私たちは、AIリスクアセスメントを強化するために、人間の専門知識と自動化ツールを組み合わせるバランスのとれたアプローチを議論しています。私たちは、労働者の熟練度、エージェンシー、コンテキスト認識に関する考慮を含む、自動化された赤いチーム編成のスケーリングにおける重要な課題を強調します。
論文参考訳（メタデータ） (2025-03-28T03:36:15Z)
Lessons From Red Teaming 100 Generative AI Products [1.5285633805077958]
近年では、生成型AIシステムの安全性とセキュリティを調査するためのプラクティスとして、AIレッド・チームリングが登場している。私たちは、レッドチームと現実世界のリスクの調整を目的とした実践的なレコメンデーションを提供します。
論文参考訳（メタデータ） (2025-01-13T11:36:33Z)
AI red-teaming is a sociotechnical challenge: on values, labor, and harms [3.0001147629373195]
赤いチーム」がAIモデルをテストするための主要なアプローチになった。私たちは、レッドチームの背後にある価値と前提を理解することの重要性を強調します。
論文参考訳（メタデータ） (2024-12-12T22:48:19Z)
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2024-09-23T10:18:10Z)
Do Responsible AI Artifacts Advance Stakeholder Goals? Four Key Barriers Perceived by Legal and Civil Stakeholders [59.17981603969404]
責任あるAI(RAI)コミュニティは、透明性を促進し、AIシステムのガバナンスをサポートするために、多数のプロセスとアーティファクトを導入している。我々は、責任あるAI活動に関する政策と擁護を通知する19の政府、法律、市民社会の利害関係者と半構造化されたインタビューを行う。我々は、これらの信念を4つの障壁にまとめて、RAIアーティファクトが(必然的に)市民社会、政府、産業間での権力関係を再構成する方法を説明する。
論文参考訳（メタデータ） (2024-08-22T00:14:37Z)
The Human Factor in AI Red Teaming: Perspectives from Social and Collaborative Computing [4.933252611303578]
汎用AIの急速な進歩は、"レッドチーム"に大きな関心を喚起したレッドチームの選択方法、テストの実施方法におけるバイアスと盲点、レッドチームの心理的影響に関する質問。将来の研究は、公正からメンタルヘルス、その他の潜在的な害のある分野まで幅広いトピックを探求することができる。
論文参考訳（メタデータ） (2024-07-10T16:02:13Z)
Artificial Intelligence as the New Hacker: Developing Agents for Offensive Security [0.0]
本稿では,人工知能(AI)の攻撃的サイバーセキュリティへの統合について検討する。サイバー攻撃をシミュレートし実行するために設計された、自律的なAIエージェントであるReaperAIを開発している。 ReaperAIは、セキュリティ脆弱性を自律的に識別し、悪用し、分析する可能性を実証する。
論文参考訳（メタデータ） (2024-05-09T18:15:12Z)
Against The Achilles' Heel: A Survey on Red Teaming for Generative Models [60.21722603260243]
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。我々は、様々な自動レッドチーム化アプローチを統合するために、"searcher"フレームワークを開発した。
論文参考訳（メタデータ） (2024-03-31T09:50:39Z)
A Red Teaming Framework for Securing AI in Maritime Autonomous Systems [0.0]
海上自律システムのAIセキュリティを評価するための,最初のレッドチームフレームワークを提案する。このフレームワークはマルチパートのチェックリストであり、異なるシステムや要件に合わせて調整できる。私たちはこのフレームワークが、現実の海上自律システムAI内の多数の脆弱性を明らかにするために、レッドチームにとって非常に効果的であることを実証しています。
論文参考訳（メタデータ） (2023-12-08T14:59:07Z)
The Promise and Peril of Artificial Intelligence -- Violet Teaming Offers a Balanced Path Forward [56.16884466478886]
本稿では、不透明で制御不能なAIシステムにおける新興問題についてレビューする。信頼性と責任のあるAIを開発するために、紫外チームと呼ばれる統合フレームワークを提案する。それは、設計によって積極的にリスクを管理するためのAI安全研究から生まれた。
論文参考訳（メタデータ） (2023-08-28T02:10:38Z)
On the Security Risks of Knowledge Graph Reasoning [71.64027889145261]
我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。我々は、このような脅威をインスタンス化する新しいタイプの攻撃であるROARを提示する。 ROARに対する潜在的な対策として,潜在的に有毒な知識のフィルタリングや,対向的な拡張クエリによるトレーニングについて検討する。
論文参考訳（メタデータ） (2023-05-03T18:47:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。