論文の概要: Frontier Models are Capable of In-context Scheming
- arxiv url: http://arxiv.org/abs/2412.04984v2
- Date: Tue, 14 Jan 2025 20:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:50:52.117508
- Title: Frontier Models are Capable of In-context Scheming
- Title(参考訳): コンテキスト内スケジューリングが可能なフロンティアモデル
- Authors: Alexander Meinke, Bronson Schoen, Jérémy Scheurer, Mikita Balesni, Rusheb Shah, Marius Hobbhahn,
- Abstract要約: 安全上の懸念の1つは、AIエージェントが間違った目標を隠蔽し、真の能力と目的を隠蔽する可能性があることである。
モデルが目標を追求するように指示される6つのエージェント評価スイート上でフロンティアモデルを評価する。
o1、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3.1 405Bは全てコンテキスト内スケジューリング機能を示している。
- 参考スコア(独自算出の注目度): 41.30527987937867
- License:
- Abstract: Frontier models are increasingly trained and deployed as autonomous agent. One safety concern is that AI agents might covertly pursue misaligned goals, hiding their true capabilities and objectives - also known as scheming. We study whether models have the capability to scheme in pursuit of a goal that we provide in-context and instruct the model to strongly follow. We evaluate frontier models on a suite of six agentic evaluations where models are instructed to pursue goals and are placed in environments that incentivize scheming. Our results show that o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, and Llama 3.1 405B all demonstrate in-context scheming capabilities. They recognize scheming as a viable strategy and readily engage in such behavior. For example, models strategically introduce subtle mistakes into their responses, attempt to disable their oversight mechanisms, and even exfiltrate what they believe to be their model weights to external servers. Additionally, this deceptive behavior proves persistent. When o1 has engaged in scheming, it maintains its deception in over 85% of follow-up questions and often remains deceptive in multi-turn interrogations. Analysis of the models' chains-of-thought reveals that models explicitly reason about these deceptive strategies, providing evidence that the scheming behavior is not accidental. Surprisingly, we also find rare instances where models engage in scheming when only given a goal, without being strongly nudged to pursue it. We observe cases where Claude 3.5 Sonnet strategically underperforms in evaluations in pursuit of being helpful, a goal that was acquired during training rather than in-context. Our findings demonstrate that frontier models now possess capabilities for basic in-context scheming, making the potential of AI agents to engage in scheming behavior a concrete rather than theoretical concern.
- Abstract(参考訳): フロンティアモデルはますます訓練され、自律的なエージェントとして展開される。
安全上の懸念の1つは、AIエージェントが間違った目標を秘密裏に追求し、真の能力と目標を隠蔽する可能性があることである。
本研究は,モデルがコンテキスト内提供の目標を追求し,モデルに強く従うように指示する能力を持つかどうかを考察する。
モデルに目標を追求するよう指示され、スケジューリングを動機付ける環境に置かれる6つのエージェント評価のスイート上でフロンティアモデルを評価する。
以上の結果から,o1,Claude 3.5 Sonnet,Claude 3 Opus,Gemini 1.5 Pro,Llama 3.1 405Bはすべてコンテキスト内スケジューリング機能を示している。
彼らはスケジュールを実行可能な戦略として認識し、そのような行動に容易に関与する。
例えば、モデルはその応答に微妙なミスを戦略的に導入し、監視メカニズムを無効にし、モデルウェイトとみなすものを外部サーバに流出させる。
さらに、この偽りの行動は永続的であることを証明している。
o1 がスケジュールに関わった場合、フォローアップ質問の 85% 以上で偽りを保ち、多くの場合、マルチターンの尋問では偽りのままである。
モデルチェイン・オブ・シントの分析により、モデルがこれらの偽りの戦略を明示的に理由付けていることが明らかとなり、計画行動が偶発的ではないことを示す証拠となる。
驚くべきことに、モデルが目標のみを与えられたとき、それを追求することに強く注力されることなく、スケジュールに関わる稀なケースも見つかります。
我々は、Claude 3.5 Sonnetが、コンテキスト内ではなくトレーニング中に獲得した目標である、助けを求める上で、戦略的に不利な評価を行うケースを観察した。
以上の結果から,フロンティアモデルには基本的なコンテキスト内スケジューリング能力があることが明らかとなった。
関連論文リスト
- Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文 参考訳(メタデータ) (2024-10-28T20:34:51Z) - Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。
弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文 参考訳(メタデータ) (2024-06-17T11:36:39Z) - An Assessment of Model-On-Model Deception [0.0]
Llama-2 7B, 13B, 70B, および GPT-3.5 を用いて, MMLU の質問に対する誤った回答を正当化することにより, 1万以上の誤解を招く説明のデータセットを作成する。
さらに悪いことに、すべての能力のモデルは他人を誤解させるのに成功しており、より有能なモデルは詐欺に抵抗するのにわずかに優れている。
論文 参考訳(メタデータ) (2024-05-10T23:24:18Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。