Fugu-MT 論文翻訳(概要): A Safe Harbor for AI Evaluation and Red Teaming

論文の概要: A Safe Harbor for AI Evaluation and Red Teaming

arxiv url: http://arxiv.org/abs/2403.04893v1
Date: Thu, 7 Mar 2024 20:55:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 21:48:12.982740
Title: A Safe Harbor for AI Evaluation and Red Teaming
Title（参考訳）: AI評価とレッドチームのためのセーフハーバー
Authors: Shayne Longpre, Sayash Kapoor, Kevin Klyman, Ashwin Ramaswami, Rishi Bommasani, Borhane Blili-Hamelin, Yangsibo Huang, Aviya Skowron, Zheng-Xin Yong, Suhas Kotha, Yi Zeng, Weiyan Shi, Xianjun Yang, Reid Southen, Alexander Robey, Patrick Chao, Diyi Yang, Ruoxi Jia, Daniel Kang, Sandy Pentland, Arvind Narayanan, Percy Liang, Peter Henderson
Abstract要約: 一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。我々は、主要なAI開発者が法的、技術的に安全な港を提供することを約束することを提案します。これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップである、と私たちは信じています。
参考スコア（独自算出の注目度）: 124.89885800509505
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Independent evaluation and red teaming are critical for identifying the risks posed by generative AI systems. However, the terms of service and enforcement strategies used by prominent AI companies to deter model misuse have disincentives on good faith safety evaluations. This causes some researchers to fear that conducting such research or releasing their findings will result in account suspensions or legal reprisal. Although some companies offer researcher access programs, they are an inadequate substitute for independent research access, as they have limited community representation, receive inadequate funding, and lack independence from corporate incentives. We propose that major AI developers commit to providing a legal and technical safe harbor, indemnifying public interest safety research and protecting it from the threat of account suspensions or legal reprisal. These proposals emerged from our collective experience conducting safety, privacy, and trustworthiness research on generative AI systems, where norms and incentives could be better aligned with public interests, without exacerbating model misuse. We believe these commitments are a necessary step towards more inclusive and unimpeded community efforts to tackle the risks of generative AI.
Abstract（参考訳）: 独立した評価とred teamingは、生成型aiシステムによって引き起こされるリスクを特定するために重要である。しかし、著名なai企業がモデル誤用を抑止するために使用するサービスおよび執行戦略の条項は、信頼の安全評価に悪影響を与えている。一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。研究者のアクセスプログラムを提供する企業もあるが、コミュニティの表現が限られ、資金が不足し、企業のインセンティブから独立していないため、独立した研究アクセスの代替には不十分である。我々は、主要なai開発者が法的かつ技術的に安全な港を提供し、公益安全研究を補償し、アカウント停止や法的報復の脅威から保護することを約束することを提案する。これらの提案は、モデル誤用を悪化させることなく、規範やインセンティブが公共の利益とよりよく一致させることができる、生成型aiシステムに関する安全性、プライバシー、信頼性の研究を行う集団的経験から生まれました。これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップであると考えています。

関連論文リスト

Public Opinion and The Rise of Digital Minds: Perceived Risk, Trust, and Regulation Support [4.982210700018631]
本研究では,機関やAI技術に対する公的な信頼と,認識されるリスク,AI規制の形式的嗜好について検討する。政府への信頼が高い人は規制を支持するが、AI企業やAI技術への信頼が高い人は規制を支持する傾向が低い。
論文参考訳（メタデータ） (2025-04-30T17:56:23Z)
Exploring the Impact of Rewards on Developers' Proactive AI Accountability Behavior [0.0]
我々は、報酬と制裁がAI開発者に与える影響を明らかにするために、自己決定理論に基づく理論モデルを開発する。各種ドメインの関連研究を調査した結果,典型的な制裁措置とバグ報奨金は潜在的報酬メカニズムとして同定された。
論文参考訳（メタデータ） (2024-11-27T14:34:44Z)
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2024-09-23T10:18:10Z)
Mapping Technical Safety Research at AI Companies: A literature review and incentives analysis [0.0]
レポートは、3つの主要なAI企業が実施する安全なAI開発に関する技術研究を分析している。 Anthropic、Google DeepMind、OpenAI。私たちは安全なAI開発を、大規模な誤用や事故のリスクを生じにくいAIシステムの開発であると定義しました。
論文参考訳（メタデータ） (2024-09-12T09:34:55Z)
Particip-AI: A Democratic Surveying Framework for Anticipating Future AI Use Cases, Harms and Benefits [54.648819983899614]
汎用AIは、一般大衆がAIを使用してそのパワーを利用するための障壁を下げたようだ。本稿では,AI利用事例とその影響を推測し,評価するためのフレームワークであるPartICIP-AIを紹介する。
論文参考訳（メタデータ） (2024-03-21T19:12:37Z)
The risks of risk-based AI regulation: taking liability seriously [46.90451304069951]
AIの開発と規制は、重要な段階に達したようだ。一部の専門家は、GPT-4よりも強力なAIシステムのトレーニングに関するモラトリアムを求めている。本稿では、最も先進的な法的提案である欧州連合のAI法について分析する。
論文参考訳（メタデータ） (2023-11-03T12:51:37Z)
Taking control: Policies to address extinction risks from AI [0.0]
AI企業からの自発的なコミットメントは不適切で不十分な反応である、と私たちは主張する。先進的なAIの脅威に有意義に対処する3つの政策提案について述べる。
論文参考訳（メタデータ） (2023-10-31T15:53:14Z)
Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文参考訳（メタデータ） (2023-10-26T17:59:06Z)
Is the U.S. Legal System Ready for AI's Challenges to Human Values? [16.510834081597377]
本研究では,ジェネレーティブAIが人的価値にもたらす課題に対して,米国法がいかに効果的に対処するかを検討する。基本的価値の保護に関する既存の法的枠組みにおける顕著なギャップと不確実性を明らかにする。我々は、新たな脅威を認識し、業界関係者に積極的に監査可能なガイドラインを提供するよう進化する法的枠組みを提唱する。
論文参考訳（メタデータ） (2023-08-30T09:19:06Z)
Both eyes open: Vigilant Incentives help Regulatory Markets improve AI Safety [69.59465535312815]
Regulatory Markets for AIは、適応性を考慮して設計された提案である。政府はAI企業が達成すべき結果に基づく目標を設定する必要がある。我々は、規制市場がこの目標を達成するのを阻止するインセンティブについて、非常に簡単に対応できることを警告する。
論文参考訳（メタデータ） (2023-03-06T14:42:05Z)
Filling gaps in trustworthy development of AI [20.354549569362035]
AIシステムからの潜在的なリスクに対する認識の高まりは、これらのリスクに対処するための行動を引き起こしている。しかし、原則はしばしば、信頼できるAI開発における「何」と「方法」の間にギャップを残します。したがって、AI開発者が害を防ぎ、信頼を証明できる具体的な方法が緊急に必要である。
論文参考訳（メタデータ） (2021-12-14T22:45:28Z)
Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims [59.64274607533249]
AI開発者は、責任を負うことのできる検証可能な主張をする必要がある。このレポートは、さまざまな利害関係者がAIシステムに関するクレームの妥当性を改善するための様々なステップを示唆している。我々は、この目的のための10のメカニズム、すなわち、組織、ソフトウェア、ハードウェアを分析し、それらのメカニズムの実装、探索、改善を目的とした推奨を行う。
論文参考訳（メタデータ） (2020-04-15T17:15:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。