論文の概要: A Safe Harbor for AI Evaluation and Red Teaming
- arxiv url: http://arxiv.org/abs/2403.04893v1
- Date: Thu, 7 Mar 2024 20:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:48:12.982740
- Title: A Safe Harbor for AI Evaluation and Red Teaming
- Title(参考訳): AI評価とレッドチームのためのセーフハーバー
- Authors: Shayne Longpre, Sayash Kapoor, Kevin Klyman, Ashwin Ramaswami, Rishi
Bommasani, Borhane Blili-Hamelin, Yangsibo Huang, Aviya Skowron, Zheng-Xin
Yong, Suhas Kotha, Yi Zeng, Weiyan Shi, Xianjun Yang, Reid Southen, Alexander
Robey, Patrick Chao, Diyi Yang, Ruoxi Jia, Daniel Kang, Sandy Pentland,
Arvind Narayanan, Percy Liang, Peter Henderson
- Abstract要約: 一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。
我々は、主要なAI開発者が法的、技術的に安全な港を提供することを約束することを提案します。
これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップである、と私たちは信じています。
- 参考スコア(独自算出の注目度): 124.89885800509505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Independent evaluation and red teaming are critical for identifying the risks
posed by generative AI systems. However, the terms of service and enforcement
strategies used by prominent AI companies to deter model misuse have
disincentives on good faith safety evaluations. This causes some researchers to
fear that conducting such research or releasing their findings will result in
account suspensions or legal reprisal. Although some companies offer researcher
access programs, they are an inadequate substitute for independent research
access, as they have limited community representation, receive inadequate
funding, and lack independence from corporate incentives. We propose that major
AI developers commit to providing a legal and technical safe harbor,
indemnifying public interest safety research and protecting it from the threat
of account suspensions or legal reprisal. These proposals emerged from our
collective experience conducting safety, privacy, and trustworthiness research
on generative AI systems, where norms and incentives could be better aligned
with public interests, without exacerbating model misuse. We believe these
commitments are a necessary step towards more inclusive and unimpeded community
efforts to tackle the risks of generative AI.
- Abstract(参考訳): 独立した評価とred teamingは、生成型aiシステムによって引き起こされるリスクを特定するために重要である。
しかし、著名なai企業がモデル誤用を抑止するために使用するサービスおよび執行戦略の条項は、信頼の安全評価に悪影響を与えている。
一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。
研究者のアクセスプログラムを提供する企業もあるが、コミュニティの表現が限られ、資金が不足し、企業のインセンティブから独立していないため、独立した研究アクセスの代替には不十分である。
我々は、主要なai開発者が法的かつ技術的に安全な港を提供し、公益安全研究を補償し、アカウント停止や法的報復の脅威から保護することを約束することを提案する。
これらの提案は、モデル誤用を悪化させることなく、規範やインセンティブが公共の利益とよりよく一致させることができる、生成型aiシステムに関する安全性、プライバシー、信頼性の研究を行う集団的経験から生まれました。
これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップであると考えています。
関連論文リスト
- Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [67.38554763406098]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、安全を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Control Risk for Potential Misuse of Artificial Intelligence in Science [85.91232985405554]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。
化学科学における誤用の実例を取り上げる。
我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:50:57Z) - The risks of risk-based AI regulation: taking liability seriously [46.90451304069951]
AIの開発と規制は、重要な段階に達したようだ。
一部の専門家は、GPT-4よりも強力なAIシステムのトレーニングに関するモラトリアムを求めている。
本稿では、最も先進的な法的提案である欧州連合のAI法について分析する。
論文 参考訳(メタデータ) (2023-11-03T12:51:37Z) - Taking control: Policies to address extinction risks from AI [0.0]
AI企業からの自発的なコミットメントは不適切で不十分な反応である、と私たちは主張する。
先進的なAIの脅威に有意義に対処する3つの政策提案について述べる。
論文 参考訳(メタデータ) (2023-10-31T15:53:14Z) - Is the U.S. Legal System Ready for AI's Challenges to Human Values? [16.510834081597377]
本研究では,ジェネレーティブAIが人的価値にもたらす課題に対して,米国法がいかに効果的に対処するかを検討する。
基本的価値の保護に関する既存の法的枠組みにおける顕著なギャップと不確実性を明らかにする。
我々は、新たな脅威を認識し、業界関係者に積極的に監査可能なガイドラインを提供するよう進化する法的枠組みを提唱する。
論文 参考訳(メタデータ) (2023-08-30T09:19:06Z) - Dual Governance: The intersection of centralized regulation and
crowdsourced safety mechanisms for Generative AI [1.2691047660244335]
Generative Artificial Intelligence(AI)は、特に消費者向け、オープンエンド、テキスト、画像生成モデルという形で、最近主流に採用されている。
創造的なAIが人間の創造性と生活を駆逐する可能性もまた、厳しい監視下にある。
政府によるAIを統制するための既存の規制と提案は、十分な明確さや統一性を持たないような批判に直面している。
クラウドソースによる安全ツールとメカニズムによる分散保護は、潜在的な代替手段である。
論文 参考訳(メタデータ) (2023-08-02T23:25:21Z) - Both eyes open: Vigilant Incentives help Regulatory Markets improve AI
Safety [69.59465535312815]
Regulatory Markets for AIは、適応性を考慮して設計された提案である。
政府はAI企業が達成すべき結果に基づく目標を設定する必要がある。
我々は、規制市場がこの目標を達成するのを阻止するインセンティブについて、非常に簡単に対応できることを警告する。
論文 参考訳(メタデータ) (2023-03-06T14:42:05Z) - Filling gaps in trustworthy development of AI [20.354549569362035]
AIシステムからの潜在的なリスクに対する認識の高まりは、これらのリスクに対処するための行動を引き起こしている。
しかし、原則はしばしば、信頼できるAI開発における「何」と「方法」の間にギャップを残します。
したがって、AI開発者が害を防ぎ、信頼を証明できる具体的な方法が緊急に必要である。
論文 参考訳(メタデータ) (2021-12-14T22:45:28Z) - Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable
Claims [59.64274607533249]
AI開発者は、責任を負うことのできる検証可能な主張をする必要がある。
このレポートは、さまざまな利害関係者がAIシステムに関するクレームの妥当性を改善するための様々なステップを示唆している。
我々は、この目的のための10のメカニズム、すなわち、組織、ソフトウェア、ハードウェアを分析し、それらのメカニズムの実装、探索、改善を目的とした推奨を行う。
論文 参考訳(メタデータ) (2020-04-15T17:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。