論文の概要: Evaluating Frontier Models for Stealth and Situational Awareness
- arxiv url: http://arxiv.org/abs/2505.01420v3
- Date: Tue, 20 May 2025 15:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.147236
- Title: Evaluating Frontier Models for Stealth and Situational Awareness
- Title(参考訳): ステルス・状況認識のためのフロンティアモデルの評価
- Authors: Mary Phuong, Roland S. Zimmermann, Ziyue Wang, David Lindner, Victoria Krakovna, Sarah Cogan, Allan Dafoe, Lewis Ho, Rohin Shah,
- Abstract要約: 最近の研究は、スケジューリングするフロンティアAIモデルの可能性を示している。
AI開発者にとっては、モデルデプロイメントの前にスキーマから害を排除することが重要です。
本稿では,2種類の推論能力を測定するためのスケジューリング推論評価スイートを提案する。
- 参考スコア(独自算出の注目度): 15.820126805686458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has demonstrated the plausibility of frontier AI models scheming -- knowingly and covertly pursuing an objective misaligned with its developer's intentions. Such behavior could be very hard to detect, and if present in future advanced systems, could pose severe loss of control risk. It is therefore important for AI developers to rule out harm from scheming prior to model deployment. In this paper, we present a suite of scheming reasoning evaluations measuring two types of reasoning capabilities that we believe are prerequisites for successful scheming: First, we propose five evaluations of ability to reason about and circumvent oversight (stealth). Second, we present eleven evaluations for measuring a model's ability to instrumentally reason about itself, its environment and its deployment (situational awareness). We demonstrate how these evaluations can be used as part of a scheming inability safety case: a model that does not succeed on these evaluations is almost certainly incapable of causing severe harm via scheming in real deployment. We run our evaluations on current frontier models and find that none of them show concerning levels of either situational awareness or stealth.
- Abstract(参考訳): 最近の研究は、開発者の意図と不一致な目標を意識的に、かつ隠蔽的に追求する、フロンティアAIモデルの有効性を実証している。
このような行動は検出するのが非常に困難であり、将来の先進的なシステムに存在すると、制御リスクが著しく失われる可能性がある。
したがって、AI開発者は、モデルデプロイメントの前にスキーマから害を排除することが重要である。
本稿では,2種類の推論能力を評価するためのスケジューリング推論評価のスイートについて述べる。まず,リスクを回避し,リスクを回避できる5つの評価方法を提案する。
第2に、モデルが自ら、その環境、その展開(位置認識)を計測する能力を評価するための11の評価を提示する。
これらの評価がスケジュール不能の安全性ケースの一部としてどのように使用できるかを示す。これらの評価に成功しないモデルは、実際のデプロイメントにおいてスケジュールによって深刻な害を引き起こすことはほぼ不可能である。
現在のフロンティアモデルで評価を行ない、状況認識とステルスのいずれのレベルに関しても、いずれのモデルも示していないことに気付きました。
関連論文リスト
- Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Frontier Models are Capable of In-context Scheming [41.30527987937867]
安全上の懸念の1つは、AIエージェントが間違った目標を隠蔽し、真の能力と目的を隠蔽する可能性があることである。
モデルが目標を追求するように指示される6つのエージェント評価スイート上でフロンティアモデルを評価する。
o1、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3.1 405Bは全てコンテキスト内スケジューリング機能を示している。
論文 参考訳(メタデータ) (2024-12-06T12:09:50Z) - Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文 参考訳(メタデータ) (2024-10-28T20:34:51Z) - Evaluating Frontier Models for Dangerous Capabilities [59.129424649740855]
危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。
評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。
我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
論文 参考訳(メタデータ) (2024-03-20T17:54:26Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。