論文の概要: Ask What Your Country Can Do For You: Towards a Public Red Teaming Model
- arxiv url: http://arxiv.org/abs/2510.20061v1
- Date: Wed, 22 Oct 2025 22:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.931326
- Title: Ask What Your Country Can Do For You: Towards a Public Red Teaming Model
- Title(参考訳): あなたの国があなたのためにできることを尋ねる:公共のレッドチームモデルを目指して
- Authors: Wm. Matthew Kennedy, Cigdem Patlak, Jayraj Dave, Blake Chambers, Aayush Dhanotiya, Darshini Ramiah, Reva Schwartz, Jack Hagen, Akash Kundu, Mouni Pendharkar, Liam Baisley, Theodora Skeadas, Rumman Chowdhury,
- Abstract要約: 我々は,協調型公開AIリピート演習を提案する。
最初の個人によるデモ隊演習はCAMLIS 2024と共同で行われた。
このアプローチは有意義な結果を提供できると同時に、多くのAI開発管轄区域にも拡張性がある、と私たちは主張する。
- 参考スコア(独自算出の注目度): 1.4138385478350077
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI systems have the potential to produce both benefits and harms, but without rigorous and ongoing adversarial evaluation, AI actors will struggle to assess the breadth and magnitude of the AI risk surface. Researchers from the field of systems design have developed several effective sociotechnical AI evaluation and red teaming techniques targeting bias, hate speech, mis/disinformation, and other documented harm classes. However, as increasingly sophisticated AI systems are released into high-stakes sectors (such as education, healthcare, and intelligence-gathering), our current evaluation and monitoring methods are proving less and less capable of delivering effective oversight. In order to actually deliver responsible AI and to ensure AI's harms are fully understood and its security vulnerabilities mitigated, pioneering new approaches to close this "responsibility gap" are now more urgent than ever. In this paper, we propose one such approach, the cooperative public AI red-teaming exercise, and discuss early results of its prior pilot implementations. This approach is intertwined with CAMLIS itself: the first in-person public demonstrator exercise was held in conjunction with CAMLIS 2024. We review the operational design and results of this exercise, the prior National Institute of Standards and Technology (NIST)'s Assessing the Risks and Impacts of AI (ARIA) pilot exercise, and another similar exercise conducted with the Singapore Infocomm Media Development Authority (IMDA). Ultimately, we argue that this approach is both capable of delivering meaningful results and is also scalable to many AI developing jurisdictions.
- Abstract(参考訳): AIシステムは、利益と損害の両方を生み出す可能性があるが、厳格で継続的な敵意評価がなければ、AIアクターはAIリスク表面の幅と大きさを評価するのに苦労するだろう。
システムデザインの分野の研究者は、バイアス、ヘイトスピーチ、誤情報、その他の文書化された調和クラスをターゲットに、いくつかの効果的な社会技術AI評価とレッドチーム技術を開発した。
しかし、高度なAIシステムがより高度な分野(教育、医療、情報収集など)に展開されるにつれ、我々の現在の評価とモニタリング手法は、効果的な監視を提供する能力の低下を証明している。
責任あるAIを実際に提供し、AIの害が完全に理解され、そのセキュリティ脆弱性が緩和されるようにするために、この"責任ギャップ"を埋めるための新たなアプローチが、これまで以上に緊急になった。
本稿では、協調型公開AIリピート演習の1つのアプローチを提案し、その以前のパイロット実装の早期結果について議論する。
このアプローチはCAMLIS自体と連動しており、CAMLIS 2024と共同で最初の個人的公開実証運動が行われた。
我々は,この演習の運用設計と成果,以前の国立標準技術研究所(NIST)のAI(ARIA)パイロット演習の評価,シンガポール情報メディア開発局(IMDA)による同様の演習についてレビューする。
最終的には、このアプローチは有意義な結果を提供できると同時に、多くのAI開発管轄区域にも拡張性がある、と私たちは論じます。
関連論文リスト
- Report on NSF Workshop on Science of Safe AI [75.96202715567088]
機械学習の新たな進歩は、社会問題に対する技術ベースのソリューションを開発する新たな機会につながっている。
AIの約束を果たすためには、正確でパフォーマンスが高く、安全で信頼性の高いAIベースのシステムを開発する方法に取り組む必要がある。
本報告はワークショップの安全性の異なる側面に対処した作業グループにおける議論の結果である。
論文 参考訳(メタデータ) (2025-06-24T18:55:29Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - Mapping Technical Safety Research at AI Companies: A literature review and incentives analysis [0.0]
レポートは、3つの主要なAI企業が実施する安全なAI開発に関する技術研究を分析している。
Anthropic、Google DeepMind、OpenAI。
私たちは安全なAI開発を、大規模な誤用や事故のリスクを生じにくいAIシステムの開発であると定義しました。
論文 参考訳(メタデータ) (2024-09-12T09:34:55Z) - Particip-AI: A Democratic Surveying Framework for Anticipating Future AI Use Cases, Harms and Benefits [54.648819983899614]
汎用AIは、一般大衆がAIを使用してそのパワーを利用するための障壁を下げたようだ。
本稿では,AI利用事例とその影響を推測し,評価するためのフレームワークであるPartICIP-AIを紹介する。
論文 参考訳(メタデータ) (2024-03-21T19:12:37Z) - A Red Teaming Framework for Securing AI in Maritime Autonomous Systems [0.0]
海上自律システムのAIセキュリティを評価するための,最初のレッドチームフレームワークを提案する。
このフレームワークはマルチパートのチェックリストであり、異なるシステムや要件に合わせて調整できる。
私たちはこのフレームワークが、現実の海上自律システムAI内の多数の脆弱性を明らかにするために、レッドチームにとって非常に効果的であることを実証しています。
論文 参考訳(メタデータ) (2023-12-08T14:59:07Z) - Assessing AI Impact Assessments: A Classroom Study [14.768235460961876]
提案されたAIシステムへの影響を想像するための構造化プロセスを提供するツール群であるAIIA(Artificial Intelligence Impact Assessments)が、AIシステムを管理するための提案としてますます人気が高まっている。
近年、政府や民間団体の取り組みによりAIIAの多様なインスタンス化が提案されている。
我々は,AIの社会的・倫理的意味に焦点をあてた選択科目において,大規模な研究集約大学(R1)で授業研究を行う。
影響評価が参加者の潜在能力に対する認識に影響を及ぼすという予備的証拠を見いだす。
論文 参考訳(メタデータ) (2023-11-19T01:00:59Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - FATE in AI: Towards Algorithmic Inclusivity and Accessibility [0.0]
AIにおけるアルゴリズム上の格差、公平性、説明責任、透明性、倫理(FATE)が実装されている。
本研究では、AIによって守られている世界南部地域のFATE関連デシダータ、特に透明性と倫理について検討する。
インクリシティを促進するために、コミュニティ主導の戦略が提案され、責任あるAI設計のための代表データを収集し、キュレートする。
論文 参考訳(メタデータ) (2023-01-03T15:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。