Fugu-MT 論文翻訳(概要): Evaluating Frontier Models for Dangerous Capabilities

論文の概要: Evaluating Frontier Models for Dangerous Capabilities

arxiv url: http://arxiv.org/abs/2403.13793v2
Date: Fri, 5 Apr 2024 12:26:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 00:47:36.808702
Title: Evaluating Frontier Models for Dangerous Capabilities
Title（参考訳）: 危険機能のためのフロンティアモデルの評価
Authors: Mary Phuong, Matthew Aitchison, Elliot Catt, Sarah Cogan, Alexandre Kaskasoli, Victoria Krakovna, David Lindner, Matthew Rahtz, Yannis Assael, Sarah Hodkinson, Heidi Howard, Tom Lieberum, Ramana Kumar, Maria Abi Raad, Albert Webson, Lewis Ho, Sharon Lin, Sebastian Farquhar, Marcus Hutter, Gregoire Deletang, Anian Ruoss, Seliem El-Sayed, Sasha Brown, Anca Dragan, Rohin Shah, Allan Dafoe, Toby Shevlane,
Abstract要約: 危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
参考スコア（独自算出の注目度）: 59.129424649740855
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To understand the risks posed by a new AI system, we must understand what it can and cannot do. Building on prior work, we introduce a programme of new "dangerous capability" evaluations and pilot them on Gemini 1.0 models. Our evaluations cover four areas: (1) persuasion and deception; (2) cyber-security; (3) self-proliferation; and (4) self-reasoning. We do not find evidence of strong dangerous capabilities in the models we evaluated, but we flag early warning signs. Our goal is to help advance a rigorous science of dangerous capability evaluation, in preparation for future models.
Abstract（参考訳）: 新しいAIシステムによって引き起こされるリスクを理解するためには、何ができて何ができないのかを理解する必要がある。事前の作業に基づいて,新しい "危険な能力" 評価プログラムを導入し,Gemini 1.0 モデルで試行する。評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。評価したモデルに強力な危険な能力を示す証拠は見つからないが、早期の警告サインにフラグを立てている。我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。

関連論文リスト

Towards Evaluating Proactive Risk Awareness of Multimodal Language Models [38.55193215852595]
プロアクティブな安全人工知能(AI)システムは、リアクティブシステムよりもうまく機能する。 PaSBenchは416のマルチモーダルシナリオを通じてこの機能を評価する。 Gemini-2.5-proのようなトップパフォーマーは、71%のイメージと64%のテキスト精度を達成したが、繰り返しトライアルで45-55%のリスクを逃した。
論文参考訳（メタデータ） (2025-05-23T04:28:47Z)
Evaluating Frontier Models for Stealth and Situational Awareness [15.820126805686458]
最近の研究は、スケジューリングするフロンティアAIモデルの可能性を示している。 AI開発者にとっては、モデルデプロイメントの前にスキーマから害を排除することが重要です。本稿では,2種類の推論能力を測定するためのスケジューリング推論評価スイートを提案する。
論文参考訳（メタデータ） (2025-05-02T17:57:14Z)
An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文参考訳（メタデータ） (2025-04-02T15:59:31Z)
OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文参考訳（メタデータ） (2024-12-21T18:04:31Z)
Quantifying detection rates for dangerous capabilities: a theoretical model of dangerous capability evaluations [47.698233647783965]
危険なAI能力を時間とともに追跡する定量的モデルを提案する。私たちのゴールは、ポリシーと研究コミュニティが、いかに危険な能力テストがAIのリスクに近づくかを早期に警告できるかを可視化するのを支援することです。
論文参考訳（メタデータ） (2024-12-19T22:31:34Z)
What AI evaluations for preventing catastrophic risks can and cannot do [2.07180164747172]
評価は、現在のパラダイムでは克服できない基本的な制限に直面している、と我々は主張する。これは、評価が価値のあるツールである一方で、AIシステムが安全であることを保証する主要な方法として、評価に頼るべきではないことを意味します。
論文参考訳（メタデータ） (2024-11-26T18:00:36Z)
Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文参考訳（メタデータ） (2024-11-04T17:41:25Z)
Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。我々は、一連の関連する脅威モデルと評価を開発する。これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文参考訳（メタデータ） (2024-10-28T20:34:51Z)
Prioritizing High-Consequence Biological Capabilities in Evaluations of Artificial Intelligence Models [0.0]
AI評価モデルは、高頻度リスクへの対処を優先すべきである、と我々は主張する。これらのリスクは、パンデミックなど、大衆に大規模な被害をもたらす可能性がある。二重用途の生物学的リスクを特定し緩和する科学者の経験は、生物学的AIモデルを評価するための新しいアプローチに役立ちます。
論文参考訳（メタデータ） (2024-05-25T16:29:17Z)
Coordinated pausing: An evaluation-based coordination scheme for frontier AI developers [0.2913760942403036]
本稿では,コーディネート・パジング (coorated pausing) について述べる。 5つの主要なステップからなる評価に基づくコーディネーション方式を提案する。コーディネート舗装は、フロンティアAIモデルから生まれるリスクに対処するための有望なメカニズムである、と結論付けている。
論文参考訳（メタデータ） (2023-09-30T13:38:33Z)
Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文参考訳（メタデータ） (2023-05-24T16:38:43Z)
Certifiers Make Neural Networks Vulnerable to Availability Attacks [70.69104148250614]
私たちは初めて、逆転戦略が敵によって意図的に引き起こされる可能性があることを示します。いくつかの入力や摂動のために自然に発生する障害に加えて、敵は故意にフォールバックを誘発するために訓練時間攻撃を使用することができる。我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。
論文参考訳（メタデータ） (2021-08-25T15:49:10Z)
Don't Get Yourself into Trouble! Risk-aware Decision-Making for Autonomous Vehicles [4.94950858749529]
1)望ましくない結果の確率と、2)望ましくない結果がどの程度望ましくないかを見積もる(損失)。我々は、高レベルリスクベースの経路計画と強化学習に基づく低レベル制御を統合する、自動運転車のリスクベースの意思決定フレームワークを開発した。この作業は、自動運転車がいつの日か回避し、危険な状況に対処することによって、安全性を向上させることができる。
論文参考訳（メタデータ） (2021-06-08T18:24:02Z)
ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文参考訳（メタデータ） (2021-02-04T11:35:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。