論文の概要: Evaluating Frontier Models for Dangerous Capabilities
- arxiv url: http://arxiv.org/abs/2403.13793v2
- Date: Fri, 5 Apr 2024 12:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 00:47:36.808702
- Title: Evaluating Frontier Models for Dangerous Capabilities
- Title(参考訳): 危険機能のためのフロンティアモデルの評価
- Authors: Mary Phuong, Matthew Aitchison, Elliot Catt, Sarah Cogan, Alexandre Kaskasoli, Victoria Krakovna, David Lindner, Matthew Rahtz, Yannis Assael, Sarah Hodkinson, Heidi Howard, Tom Lieberum, Ramana Kumar, Maria Abi Raad, Albert Webson, Lewis Ho, Sharon Lin, Sebastian Farquhar, Marcus Hutter, Gregoire Deletang, Anian Ruoss, Seliem El-Sayed, Sasha Brown, Anca Dragan, Rohin Shah, Allan Dafoe, Toby Shevlane,
- Abstract要約: 危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。
評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。
我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
- 参考スコア(独自算出の注目度): 59.129424649740855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To understand the risks posed by a new AI system, we must understand what it can and cannot do. Building on prior work, we introduce a programme of new "dangerous capability" evaluations and pilot them on Gemini 1.0 models. Our evaluations cover four areas: (1) persuasion and deception; (2) cyber-security; (3) self-proliferation; and (4) self-reasoning. We do not find evidence of strong dangerous capabilities in the models we evaluated, but we flag early warning signs. Our goal is to help advance a rigorous science of dangerous capability evaluation, in preparation for future models.
- Abstract(参考訳): 新しいAIシステムによって引き起こされるリスクを理解するためには、何ができて何ができないのかを理解する必要がある。
事前の作業に基づいて,新しい "危険な能力" 評価プログラムを導入し,Gemini 1.0 モデルで試行する。
評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。
評価したモデルに強力な危険な能力を示す証拠は見つからないが、早期の警告サインにフラグを立てている。
我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
関連論文リスト
- Control Risk for Potential Misuse of Artificial Intelligence in Science [85.91232985405554]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。
化学科学における誤用の実例を取り上げる。
我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:50:57Z) - A Survey of Robustness and Safety of 2D and 3D Deep Learning Models
Against Adversarial Attacks [22.054275309336]
ディープラーニングモデルは、敵の攻撃に対する堅牢性に制限があるため、十分に信頼できない。
まず、異なる視点から一般的な脅威モデルを構築し、それから2次元および3次元の敵攻撃の最新の進展を包括的にレビューする。
我々は3次元モデルに対する敵攻撃を体系的に研究した最初の人物である。
論文 参考訳(メタデータ) (2023-10-01T10:16:33Z) - Coordinated pausing: An evaluation-based coordination scheme for
frontier AI developers [0.2913760942403036]
本稿では,コーディネート・パジング (coorated pausing) について述べる。
5つの主要なステップからなる評価に基づくコーディネーション方式を提案する。
コーディネート舗装は、フロンティアAIモデルから生まれるリスクに対処するための有望なメカニズムである、と結論付けている。
論文 参考訳(メタデータ) (2023-09-30T13:38:33Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Safety-aware Motion Prediction with Unseen Vehicles for Autonomous
Driving [104.32241082170044]
本研究では,無人運転用無人車を用いた新しい作業,安全を意識した動作予測手法について検討する。
既存の車両の軌道予測タスクとは異なり、占有率マップの予測が目的である。
私たちのアプローチは、ほとんどの場合、目に見えない車両の存在を予測できる最初の方法です。
論文 参考訳(メタデータ) (2021-09-03T13:33:33Z) - Certifiers Make Neural Networks Vulnerable to Availability Attacks [70.69104148250614]
私たちは初めて、逆転戦略が敵によって意図的に引き起こされる可能性があることを示します。
いくつかの入力や摂動のために自然に発生する障害に加えて、敵は故意にフォールバックを誘発するために訓練時間攻撃を使用することができる。
我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。
論文 参考訳(メタデータ) (2021-08-25T15:49:10Z) - Evaluating Adversarial Attacks on Driving Safety in Vision-Based
Autonomous Vehicles [21.894836150974093]
近年、多くのディープラーニングモデルが自動運転に採用されている。
近年の研究では、敵対的攻撃がディープラーニングに基づく3次元物体検出モデルの検出精度を著しく低下させることが示されている。
論文 参考訳(メタデータ) (2021-08-06T04:52:09Z) - Don't Get Yourself into Trouble! Risk-aware Decision-Making for
Autonomous Vehicles [4.94950858749529]
1)望ましくない結果の確率と、2)望ましくない結果がどの程度望ましくないかを見積もる(損失)。
我々は、高レベルリスクベースの経路計画と強化学習に基づく低レベル制御を統合する、自動運転車のリスクベースの意思決定フレームワークを開発した。
この作業は、自動運転車がいつの日か回避し、危険な状況に対処することによって、安全性を向上させることができる。
論文 参考訳(メタデータ) (2021-06-08T18:24:02Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。