論文の概要: Sabotage Evaluations for Frontier Models
- arxiv url: http://arxiv.org/abs/2410.21514v1
- Date: Mon, 28 Oct 2024 20:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:43:11.461478
- Title: Sabotage Evaluations for Frontier Models
- Title(参考訳): フロンティアモデルのサボタージュ評価
- Authors: Joe Benton, Misha Wagner, Eric Christiansen, Cem Anil, Ethan Perez, Jai Srivastav, Esin Durmus, Deep Ganguli, Shauna Kravec, Buck Shlegeris, Jared Kaplan, Holden Karnofsky, Evan Hubinger, Roger Grosse, Samuel R. Bowman, David Duvenaud,
- Abstract要約: 十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
- 参考スコア(独自算出の注目度): 48.23262570766321
- License:
- Abstract: Sufficiently capable models could subvert human oversight and decision-making in important contexts. For example, in the context of AI development, models could covertly sabotage efforts to evaluate their own dangerous capabilities, to monitor their behavior, or to make decisions about their deployment. We refer to this family of abilities as sabotage capabilities. We develop a set of related threat models and evaluations. These evaluations are designed to provide evidence that a given model, operating under a given set of mitigations, could not successfully sabotage a frontier model developer or other large organization's activities in any of these ways. We demonstrate these evaluations on Anthropic's Claude 3 Opus and Claude 3.5 Sonnet models. Our results suggest that for these models, minimal mitigations are currently sufficient to address sabotage risks, but that more realistic evaluations and stronger mitigations seem likely to be necessary soon as capabilities improve. We also survey related evaluations we tried and abandoned. Finally, we discuss the advantages of mitigation-aware capability evaluations, and of simulating large-scale deployments using small-scale statistics.
- Abstract(参考訳): 十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
例えば、AI開発のコンテキストでは、モデルは自分たちの危険な能力を評価したり、彼らの振る舞いを監視したり、デプロイメントに関する決定をしたりするための努力を隠蔽することができる。
我々はこの能力のファミリーをサボタージュ能力と呼ぶ。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、与えられたモデルが与えられた緩和の下で動作し、フロンティアモデル開発者や他の大規模組織の活動をいかなる方法でも妨害することができないという証拠を提供するように設計されている。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
これらのモデルでは,サボタージュリスクに対処するためには最小限の緩和が必要とされているが,機能改善に伴い,より現実的な評価とより強力な緩和が必要であると考えられる。
我々はまた、試行錯誤した関連する評価も調査した。
最後に、緩和対応能力評価の利点と、小規模統計を用いた大規模展開のシミュレーションについて論じる。
関連論文リスト
- Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Debate Helps Weak-to-Strong Generalization [68.70065254564642]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。
議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。
OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文 参考訳(メタデータ) (2025-01-21T05:36:13Z) - Frontier Models are Capable of In-context Scheming [41.30527987937867]
安全上の懸念の1つは、AIエージェントが間違った目標を隠蔽し、真の能力と目的を隠蔽する可能性があることである。
モデルが目標を追求するように指示される6つのエージェント評価スイート上でフロンティアモデルを評価する。
o1、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3.1 405Bは全てコンテキスト内スケジューリング機能を示している。
論文 参考訳(メタデータ) (2024-12-06T12:09:50Z) - AI Sandbagging: Language Models can Strategically Underperform on Evaluations [1.0485739694839669]
信頼できる能力評価は、AIシステムの安全性を保証するために不可欠である。
AIシステムの開発者は、AIの実際の能力を説明するための評価のためのインセンティブを持つことができる。
本稿では,現代言語モデルにおけるサンドバッグ機能の評価を行う。
論文 参考訳(メタデータ) (2024-06-11T15:26:57Z) - Evaluating Frontier Models for Dangerous Capabilities [59.129424649740855]
危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。
評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。
我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
論文 参考訳(メタデータ) (2024-03-20T17:54:26Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Predictability and Surprise in Large Generative Models [8.055204456718576]
大規模プレトレーニングは、有能で汎用的な生成モデルを作成するための技術として登場した。
本稿では,そのようなモデルの直観的特性を強調し,この特性の政策的含意について論じる。
論文 参考訳(メタデータ) (2022-02-15T23:21:23Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。
彼らは敵の防御を動機付ける敵の例に弱い。
本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-24T01:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。