論文の概要: Model evaluation for extreme risks
- arxiv url: http://arxiv.org/abs/2305.15324v2
- Date: Fri, 22 Sep 2023 18:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 02:44:03.162433
- Title: Model evaluation for extreme risks
- Title(参考訳): 極端なリスクに対するモデル評価
- Authors: Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess
Whittlestone, Jade Leung, Daniel Kokotajlo, Nahema Marchal, Markus
Anderljung, Noam Kolt, Lewis Ho, Divya Siddarth, Shahar Avin, Will Hawkins,
Been Kim, Iason Gabriel, Vijay Bolina, Jack Clark, Yoshua Bengio, Paul
Christiano, Allan Dafoe
- Abstract要約: AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
- 参考スコア(独自算出の注目度): 46.53170857607407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches to building general-purpose AI systems tend to produce
systems with both beneficial and harmful capabilities. Further progress in AI
development could lead to capabilities that pose extreme risks, such as
offensive cyber capabilities or strong manipulation skills. We explain why
model evaluation is critical for addressing extreme risks. Developers must be
able to identify dangerous capabilities (through "dangerous capability
evaluations") and the propensity of models to apply their capabilities for harm
(through "alignment evaluations"). These evaluations will become critical for
keeping policymakers and other stakeholders informed, and for making
responsible decisions about model training, deployment, and security.
- Abstract(参考訳): 汎用AIシステムを構築するための現在のアプローチは、有益かつ有害な能力を持つシステムを生成する傾向がある。
ai開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルなど、極端なリスクをもたらす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明する。
開発者は("危険な能力評価"を通じて)危険な能力と、("評価"を通じて)その能力を害に当てはめるモデルの拡張性を識別できなければなりません。
これらの評価は、政策立案者や他の利害関係者に情報を提供し、モデルトレーニング、デプロイメント、セキュリティに関する責任ある決定を下すために重要になります。
関連論文リスト
- Fully Autonomous AI Agents Should Not be Developed [58.88624302082713]
本稿では,完全自律型AIエージェントを開発すべきではないと主張している。
この立場を支持するために、我々は、従来の科学文献と現在の製品マーケティングから、異なるAIエージェントレベルを規定するために構築する。
分析の結果,システムの自律性によって人へのリスクが増大することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-04T19:00:06Z) - What AI evaluations for preventing catastrophic risks can and cannot do [2.07180164747172]
評価は、現在のパラダイムでは克服できない基本的な制限に直面している、と我々は主張する。
これは、評価が価値のあるツールである一方で、AIシステムが安全であることを保証する主要な方法として、評価に頼るべきではないことを意味します。
論文 参考訳(メタデータ) (2024-11-26T18:00:36Z) - Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文 参考訳(メタデータ) (2024-10-28T20:34:51Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - AI Sandbagging: Language Models can Strategically Underperform on Evaluations [1.0485739694839669]
信頼できる能力評価は、AIシステムの安全性を保証するために不可欠である。
AIシステムの開発者は、AIの実際の能力を説明するための評価のためのインセンティブを持つことができる。
本稿では,現代言語モデルにおけるサンドバッグ機能の評価を行う。
論文 参考訳(メタデータ) (2024-06-11T15:26:57Z) - Generative AI Models: Opportunities and Risks for Industry and Authorities [1.3196892898418466]
生成AIモデルは、伝統的に創造性と人間の理解を必要とする幅広いタスクを実行することができる。
トレーニング中は、既存のデータからパターンを学び、その後、新しいコンテンツを生成することができる。
生成AIに関連する多くのリスクは、開発中に対処する必要がある。
論文 参考訳(メタデータ) (2024-06-07T08:34:30Z) - Evaluating Frontier Models for Dangerous Capabilities [59.129424649740855]
危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。
評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。
我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
論文 参考訳(メタデータ) (2024-03-20T17:54:26Z) - Asset-centric Threat Modeling for AI-based Systems [7.696807063718328]
本稿では、AI関連資産、脅威、対策、残留リスクの定量化のためのアプローチおよびツールであるThreatFinderAIを提案する。
このアプローチの実用性を評価するため、参加者はAIベースのヘルスケアプラットフォームのサイバーセキュリティ専門家によって開発された脅威モデルを再現するよう命じられた。
全体として、ソリューションのユーザビリティはよく認識され、脅威の識別とリスクの議論を効果的にサポートする。
論文 参考訳(メタデータ) (2024-03-11T08:40:01Z) - Quantitative AI Risk Assessments: Opportunities and Challenges [7.35411010153049]
リスクを減らす最善の方法は、包括的なAIライフサイクルガバナンスを実装することです。
リスクは技術コミュニティのメトリクスを使って定量化できます。
本稿では,このようなアプローチの機会,課題,潜在的影響に焦点をあてて,これらの課題について考察する。
論文 参考訳(メタデータ) (2022-09-13T21:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。