論文の概要: Model evaluation for extreme risks
- arxiv url: http://arxiv.org/abs/2305.15324v2
- Date: Fri, 22 Sep 2023 18:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 02:44:03.162433
- Title: Model evaluation for extreme risks
- Title(参考訳): 極端なリスクに対するモデル評価
- Authors: Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess
Whittlestone, Jade Leung, Daniel Kokotajlo, Nahema Marchal, Markus
Anderljung, Noam Kolt, Lewis Ho, Divya Siddarth, Shahar Avin, Will Hawkins,
Been Kim, Iason Gabriel, Vijay Bolina, Jack Clark, Yoshua Bengio, Paul
Christiano, Allan Dafoe
- Abstract要約: AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
- 参考スコア(独自算出の注目度): 46.53170857607407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches to building general-purpose AI systems tend to produce
systems with both beneficial and harmful capabilities. Further progress in AI
development could lead to capabilities that pose extreme risks, such as
offensive cyber capabilities or strong manipulation skills. We explain why
model evaluation is critical for addressing extreme risks. Developers must be
able to identify dangerous capabilities (through "dangerous capability
evaluations") and the propensity of models to apply their capabilities for harm
(through "alignment evaluations"). These evaluations will become critical for
keeping policymakers and other stakeholders informed, and for making
responsible decisions about model training, deployment, and security.
- Abstract(参考訳): 汎用AIシステムを構築するための現在のアプローチは、有益かつ有害な能力を持つシステムを生成する傾向がある。
ai開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルなど、極端なリスクをもたらす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明する。
開発者は("危険な能力評価"を通じて)危険な能力と、("評価"を通じて)その能力を害に当てはめるモデルの拡張性を識別できなければなりません。
これらの評価は、政策立案者や他の利害関係者に情報を提供し、モデルトレーニング、デプロイメント、セキュリティに関する責任ある決定を下すために重要になります。
関連論文リスト
- Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文 参考訳(メタデータ) (2024-10-28T20:34:51Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - EAIRiskBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [47.69642609574771]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
EAIRiskBenchは、EAIシナリオにおける自動物理的リスクアセスメントのための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Generative AI Models: Opportunities and Risks for Industry and Authorities [1.3914994102950027]
生成AIモデルは、伝統的に創造性と人間の理解を必要とする幅広いタスクを実行することができる。
トレーニング中に既存のデータからパターンを学び、その後、新しいコンテンツを生成することができる。
生成AIモデルを使用することで、考慮すべき新たなITセキュリティリスクがもたらされる。
論文 参考訳(メタデータ) (2024-06-07T08:34:30Z) - Risks and Opportunities of Open-Source Generative AI [64.86989162783648]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。
この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文 参考訳(メタデータ) (2024-05-14T13:37:36Z) - Evaluating Frontier Models for Dangerous Capabilities [59.129424649740855]
危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。
評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。
我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
論文 参考訳(メタデータ) (2024-03-20T17:54:26Z) - Asset-centric Threat Modeling for AI-based Systems [7.696807063718328]
本稿では、AI関連資産、脅威、対策、残留リスクの定量化のためのアプローチおよびツールであるThreatFinderAIを提案する。
このアプローチの実用性を評価するため、参加者はAIベースのヘルスケアプラットフォームのサイバーセキュリティ専門家によって開発された脅威モデルを再現するよう命じられた。
全体として、ソリューションのユーザビリティはよく認識され、脅威の識別とリスクの議論を効果的にサポートする。
論文 参考訳(メタデータ) (2024-03-11T08:40:01Z) - Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。
生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。
本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:13:58Z) - Quantitative AI Risk Assessments: Opportunities and Challenges [9.262092738841979]
AIベースのシステムは、組織、個人、社会に価値を提供するために、ますます活用されている。
リスクは、提案された規制、訴訟、および一般的な社会的懸念につながった。
本稿では,定量的AIリスクアセスメントの概念について考察する。
論文 参考訳(メタデータ) (2022-09-13T21:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。