論文の概要: Effective Automation to Support the Human Infrastructure in AI Red Teaming
- arxiv url: http://arxiv.org/abs/2503.22116v1
- Date: Fri, 28 Mar 2025 03:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:47.089032
- Title: Effective Automation to Support the Human Infrastructure in AI Red Teaming
- Title(参考訳): AI Red Teamingにおけるヒューマンインフラストラクチャ支援のための効果的な自動化
- Authors: Alice Qian Zhang, Jina Suh, Mary L. Gray, Hong Shen,
- Abstract要約: 私たちは、AIリスクアセスメントを強化するために、人間の専門知識と自動化ツールを組み合わせるバランスのとれたアプローチを議論しています。
私たちは、労働者の熟練度、エージェンシー、コンテキスト認識に関する考慮を含む、自動化された赤いチーム編成のスケーリングにおける重要な課題を強調します。
- 参考スコア(独自算出の注目度): 5.463538170874778
- License:
- Abstract: As artificial intelligence (AI) systems become increasingly embedded in critical societal functions, the need for robust red teaming methodologies continues to grow. In this forum piece, we examine emerging approaches to automating AI red teaming, with a particular focus on how the application of automated methods affects human-driven efforts. We discuss the role of labor in automated red teaming processes, the benefits and limitations of automation, and its broader implications for AI safety and labor practices. Drawing on existing frameworks and case studies, we argue for a balanced approach that combines human expertise with automated tools to strengthen AI risk assessment. Finally, we highlight key challenges in scaling automated red teaming, including considerations around worker proficiency, agency, and context-awareness.
- Abstract(参考訳): 人工知能(AI)システムは、重要な社会的機能にますます組み込まれていくにつれて、堅牢なレッド・チーム・方法論の必要性が高まっている。
このフォーラムの記事では、自動化されたメソッドの応用が人間主導の取り組みにどのように影響するかに特に焦点をあてて、AI赤チームを自動化する新しいアプローチについて検討する。
我々は、自動化されたレッドチーム化プロセスにおける労働の役割、自動化の利点と限界、そしてAIの安全性と労働実践に対するその広範な影響について論じる。
既存のフレームワークとケーススタディに基づいて、人間の専門知識と自動化ツールを組み合わせてAIリスクアセスメントを強化するバランスのとれたアプローチを議論する。
最後に、労働者の熟練度、エージェンシー、コンテキスト認識に関する考慮を含む、自動化された赤いチーム編成のスケーリングにおける重要な課題を強調します。
関連論文リスト
- Lessons From Red Teaming 100 Generative AI Products [1.5285633805077958]
近年では、生成型AIシステムの安全性とセキュリティを調査するためのプラクティスとして、AIレッド・チームリングが登場している。
私たちは、レッドチームと現実世界のリスクの調整を目的とした実践的なレコメンデーションを提供します。
論文 参考訳(メタデータ) (2025-01-13T11:36:33Z) - AI Red-Teaming is a Sociotechnical System. Now What? [3.0001147629373195]
生成AI技術は、ますます現実のアプリケーションを見つけ、そのパフォーマンスと安全性をテストすることの重要性が最重要であるように思える。
赤チーム化は、AI企業によって優先順位付けされた、AIモデルをテストするための主要なアプローチである。
我々は、レッドチームの背後にある価値と前提を理解することの重要性、関連する労力、レッドチームに対する心理的影響を強調します。
論文 参考訳(メタデータ) (2024-12-12T22:48:19Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - Human-Centered Automation [0.3626013617212666]
この論文は、自動化システムの設計と開発におけるユーザニーズと嗜好を優先するHCA(Human-Centered Automation)の新たな領域について論じている。
本稿は、既存の自動化アプローチの限界、AIとRPAの統合の課題、生産性、イノベーション、そしてこれらの技術へのアクセスを民主化するための人間中心の自動化の利点について論じる。
論文 参考訳(メタデータ) (2024-05-24T22:12:28Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Red-Teaming for Generative AI: Silver Bullet or Security Theater? [42.35800543892003]
我々は、赤いチーム化は、GenAIの有害な軽減を特徴付ける上で価値のある大胆なアイデアであるが、業界はAIを保護するために、閉じたドアの後ろでレッドチームやその他の戦略を効果的に適用するかもしれないと論じている。
生成AIの評価のより堅牢なツールボックスに向けて、私たちは、私たちの推奨事項を、将来のAI赤チームプラクティスをガイドし、足場にすることを目的とした質問銀行に合成します。
論文 参考訳(メタデータ) (2024-01-29T05:46:14Z) - A Red Teaming Framework for Securing AI in Maritime Autonomous Systems [0.0]
海上自律システムのAIセキュリティを評価するための,最初のレッドチームフレームワークを提案する。
このフレームワークはマルチパートのチェックリストであり、異なるシステムや要件に合わせて調整できる。
私たちはこのフレームワークが、現実の海上自律システムAI内の多数の脆弱性を明らかにするために、レッドチームにとって非常に効果的であることを実証しています。
論文 参考訳(メタデータ) (2023-12-08T14:59:07Z) - ProAgent: From Robotic Process Automation to Agentic Process Automation [87.0555252338361]
LLM(Large Language Models)は、人間のような知性を持つ言語である。
本稿では,ALMをベースとしたエージェントを用いた高度な自動化のための基盤的自動化パラダイムであるエージェントプロセス自動化(APA)を紹介する。
そして、人間の指示を駆使し、特殊エージェントの調整によって複雑な決定を下すように設計されたエージェントであるProAgentをインスタンス化する。
論文 参考訳(メタデータ) (2023-11-02T14:32:16Z) - AI Maintenance: A Robustness Perspective [91.28724422822003]
我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。
本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。
我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
論文 参考訳(メタデータ) (2023-01-08T15:02:38Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。