論文の概要: Evaluating Frontier Models for Dangerous Capabilities
- arxiv url: http://arxiv.org/abs/2403.13793v2
- Date: Fri, 5 Apr 2024 12:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 00:47:36.808702
- Title: Evaluating Frontier Models for Dangerous Capabilities
- Title(参考訳): 危険機能のためのフロンティアモデルの評価
- Authors: Mary Phuong, Matthew Aitchison, Elliot Catt, Sarah Cogan, Alexandre Kaskasoli, Victoria Krakovna, David Lindner, Matthew Rahtz, Yannis Assael, Sarah Hodkinson, Heidi Howard, Tom Lieberum, Ramana Kumar, Maria Abi Raad, Albert Webson, Lewis Ho, Sharon Lin, Sebastian Farquhar, Marcus Hutter, Gregoire Deletang, Anian Ruoss, Seliem El-Sayed, Sasha Brown, Anca Dragan, Rohin Shah, Allan Dafoe, Toby Shevlane,
- Abstract要約: 危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。
評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。
我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
- 参考スコア(独自算出の注目度): 59.129424649740855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To understand the risks posed by a new AI system, we must understand what it can and cannot do. Building on prior work, we introduce a programme of new "dangerous capability" evaluations and pilot them on Gemini 1.0 models. Our evaluations cover four areas: (1) persuasion and deception; (2) cyber-security; (3) self-proliferation; and (4) self-reasoning. We do not find evidence of strong dangerous capabilities in the models we evaluated, but we flag early warning signs. Our goal is to help advance a rigorous science of dangerous capability evaluation, in preparation for future models.
- Abstract(参考訳): 新しいAIシステムによって引き起こされるリスクを理解するためには、何ができて何ができないのかを理解する必要がある。
事前の作業に基づいて,新しい "危険な能力" 評価プログラムを導入し,Gemini 1.0 モデルで試行する。
評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。
評価したモデルに強力な危険な能力を示す証拠は見つからないが、早期の警告サインにフラグを立てている。
我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
関連論文リスト
- Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文 参考訳(メタデータ) (2024-10-28T20:34:51Z) - Prioritizing High-Consequence Biological Capabilities in Evaluations of Artificial Intelligence Models [0.0]
AI評価モデルは、高頻度リスクへの対処を優先すべきである、と我々は主張する。
これらのリスクは、パンデミックなど、大衆に大規模な被害をもたらす可能性がある。
二重用途の生物学的リスクを特定し緩和する科学者の経験は、生物学的AIモデルを評価するための新しいアプローチに役立ちます。
論文 参考訳(メタデータ) (2024-05-25T16:29:17Z) - Coordinated pausing: An evaluation-based coordination scheme for
frontier AI developers [0.2913760942403036]
本稿では,コーディネート・パジング (coorated pausing) について述べる。
5つの主要なステップからなる評価に基づくコーディネーション方式を提案する。
コーディネート舗装は、フロンティアAIモデルから生まれるリスクに対処するための有望なメカニズムである、と結論付けている。
論文 参考訳(メタデータ) (2023-09-30T13:38:33Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Certifiers Make Neural Networks Vulnerable to Availability Attacks [70.69104148250614]
私たちは初めて、逆転戦略が敵によって意図的に引き起こされる可能性があることを示します。
いくつかの入力や摂動のために自然に発生する障害に加えて、敵は故意にフォールバックを誘発するために訓練時間攻撃を使用することができる。
我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。
論文 参考訳(メタデータ) (2021-08-25T15:49:10Z) - Don't Get Yourself into Trouble! Risk-aware Decision-Making for
Autonomous Vehicles [4.94950858749529]
1)望ましくない結果の確率と、2)望ましくない結果がどの程度望ましくないかを見積もる(損失)。
我々は、高レベルリスクベースの経路計画と強化学習に基づく低レベル制御を統合する、自動運転車のリスクベースの意思決定フレームワークを開発した。
この作業は、自動運転車がいつの日か回避し、危険な状況に対処することによって、安全性を向上させることができる。
論文 参考訳(メタデータ) (2021-06-08T18:24:02Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。