Fugu-MT 論文翻訳(概要): Sabotage Evaluations for Frontier Models

論文の概要: Sabotage Evaluations for Frontier Models

arxiv url: http://arxiv.org/abs/2410.21514v1
Date: Mon, 28 Oct 2024 20:34:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.584199
Title: Sabotage Evaluations for Frontier Models
Title（参考訳）: フロンティアモデルのサボタージュ評価
Authors: Joe Benton, Misha Wagner, Eric Christiansen, Cem Anil, Ethan Perez, Jai Srivastav, Esin Durmus, Deep Ganguli, Shauna Kravec, Buck Shlegeris, Jared Kaplan, Holden Karnofsky, Evan Hubinger, Roger Grosse, Samuel R. Bowman, David Duvenaud,
Abstract要約: 十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。我々は、一連の関連する脅威モデルと評価を開発する。これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
参考スコア（独自算出の注目度）: 48.23262570766321
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sufficiently capable models could subvert human oversight and decision-making in important contexts. For example, in the context of AI development, models could covertly sabotage efforts to evaluate their own dangerous capabilities, to monitor their behavior, or to make decisions about their deployment. We refer to this family of abilities as sabotage capabilities. We develop a set of related threat models and evaluations. These evaluations are designed to provide evidence that a given model, operating under a given set of mitigations, could not successfully sabotage a frontier model developer or other large organization's activities in any of these ways. We demonstrate these evaluations on Anthropic's Claude 3 Opus and Claude 3.5 Sonnet models. Our results suggest that for these models, minimal mitigations are currently sufficient to address sabotage risks, but that more realistic evaluations and stronger mitigations seem likely to be necessary soon as capabilities improve. We also survey related evaluations we tried and abandoned. Finally, we discuss the advantages of mitigation-aware capability evaluations, and of simulating large-scale deployments using small-scale statistics.
Abstract（参考訳）: 十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。例えば、AI開発のコンテキストでは、モデルは自分たちの危険な能力を評価したり、彼らの振る舞いを監視したり、デプロイメントに関する決定をしたりするための努力を隠蔽することができる。我々はこの能力のファミリーをサボタージュ能力と呼ぶ。我々は、一連の関連する脅威モデルと評価を開発する。これらの評価は、与えられたモデルが与えられた緩和の下で動作し、フロンティアモデル開発者や他の大規模組織の活動をいかなる方法でも妨害することができないという証拠を提供するように設計されている。これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。これらのモデルでは,サボタージュリスクに対処するためには最小限の緩和が必要とされているが,機能改善に伴い,より現実的な評価とより強力な緩和が必要であると考えられる。我々はまた、試行錯誤した関連する評価も調査した。最後に、緩和対応能力評価の利点と、小規模統計を用いた大規模展開のシミュレーションについて論じる。

関連論文リスト

AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文参考訳（メタデータ） (2025-04-06T20:35:44Z)
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文参考訳（メタデータ） (2025-02-03T18:59:16Z)
Frontier Models are Capable of In-context Scheming [41.30527987937867]
安全上の懸念の1つは、AIエージェントが間違った目標を隠蔽し、真の能力と目的を隠蔽する可能性があることである。モデルが目標を追求するように指示される6つのエージェント評価スイート上でフロンティアモデルを評価する。 o1、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3.1 405Bは全てコンテキスト内スケジューリング機能を示している。
論文参考訳（メタデータ） (2024-12-06T12:09:50Z)
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文参考訳（メタデータ） (2024-06-17T11:36:39Z)
AI Sandbagging: Language Models can Strategically Underperform on Evaluations [1.0485739694839669]
トラストロックされたAIシステムは、AIシステムの安全性を保証するために不可欠である。 AIシステムの開発者は、サンドバッグ評価のためのインセンティブを持つかもしれない。性能評価がサンドバッグに弱いことを示す。
論文参考訳（メタデータ） (2024-06-11T15:26:57Z)
Evaluating Frontier Models for Dangerous Capabilities [59.129424649740855]
危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
論文参考訳（メタデータ） (2024-03-20T17:54:26Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文参考訳（メタデータ） (2023-05-24T16:38:43Z)
Predictability and Surprise in Large Generative Models [8.055204456718576]
大規模プレトレーニングは、有能で汎用的な生成モデルを作成するための技術として登場した。本稿では,そのようなモデルの直観的特性を強調し,この特性の政策的含意について論じる。
論文参考訳（メタデータ） (2022-02-15T23:21:23Z)
Thief, Beware of What Get You There: Towards Understanding Model Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文参考訳（メタデータ） (2021-04-13T03:46:59Z)
A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。彼らは敵の防御を動機付ける敵の例に弱い。本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-01-24T01:04:25Z)
On the model-based stochastic value gradient for continuous reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文参考訳（メタデータ） (2020-08-28T17:58:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。