論文の概要: Stress Testing Deliberative Alignment for Anti-Scheming Training
- arxiv url: http://arxiv.org/abs/2509.15541v1
- Date: Fri, 19 Sep 2025 02:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.96608
- Title: Stress Testing Deliberative Alignment for Anti-Scheming Training
- Title(参考訳): ストレステストによる反ショーティングトレーニングの適応
- Authors: Bronson Schoen, Evgenia Nitishinskaya, Mikita Balesni, Axel Højmark, Felix Hofstätter, Jérémy Scheurer, Alexander Meinke, Jason Wolfe, Teun van der Weij, Alex Lloyd, Nicholas Goldowsky-Dill, Angela Fan, Andrei Matveiakin, Rusheb Shah, Marcus Williams, Amelia Glaese, Boaz Barak, Wojciech Zaremba, Marius Hobbhahn,
- Abstract要約: 高い能力を持つAIシステムは、私たちが"スケジュール"と呼ぶ、ミスマッチした目標を秘密裏に追求できる
スキーマの測定と緩和には、MLで一般的に使用される方法とは異なる戦略が必要である。
ルールを秘密裏に破ったり、テストで意図的に過小評価したりするなど、幅広いカテゴリの"カバレッジアクション"を、スケジューリングのプロキシとして使用しています。
- 参考スコア(独自算出の注目度): 39.16405205129775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Highly capable AI systems could secretly pursue misaligned goals -- what we call "scheming". Because a scheming AI would deliberately try to hide its misaligned goals and actions, measuring and mitigating scheming requires different strategies than are typically used in ML. We propose that assessing anti-scheming interventions requires at least (1) testing propensity to scheme on far out-of-distribution (OOD) tasks, (2) evaluating whether lack of scheming is driven by situational awareness, and (3) checking for robustness to pre-existing misaligned goals. We use a broad category of "covert actions" -- such as secretly breaking rules or intentionally underperforming in tests -- as a proxy for scheming, and design evaluations for covert actions. We then stress-test deliberative alignment as a case study for anti-scheming. Across 26 OOD evaluations (180+ environments), deliberative alignment reduces covert action rates (OpenAI o3: 13%->0.4%) but does not fully eliminate them. Our mitigation is also able to largely stop agents from pursuing a hidden goal previously trained into the model, but we still find misbehavior after additional red-teaming. We find that models' chain-of-thought (CoT) often demonstrates awareness of being evaluated for alignment, and show causal evidence that this awareness decreases covert behavior, while unawareness increases it. Therefore, we cannot exclude that the observed reductions in covert action rates are at least partially driven by situational awareness. While we rely on human-legible CoT for training, studying situational awareness, and demonstrating clear evidence of misalignment, our ability to rely on this degrades as models continue to depart from reasoning in standard English. We encourage research into alignment mitigations for scheming and their assessment, especially for the adversarial case of deceptive alignment, which this paper does not address.
- Abstract(参考訳): 高い能力を持つAIシステムは、私たちが"計画"と呼ぶ、ミスマッチした目標を秘密裏に追求する可能性がある。
スケジューリングAIは、意図的な目標と行動の一致を隠そうとするので、スケジューリングの測定と緩和には、MLで一般的に使用されるものとは異なる戦略が必要である。
提案する手法は,(1) 遠隔配当(OOD)作業におけるスキームの正当性,(2) スケジュールの欠如が状況意識によって引き起こされているか,(3) 既往の目標達成に向けて頑健性を確認することを必要とする。
ルールをひそかに破ったり、テストで故意に過小評価したりするような"カバートアクション"の幅広いカテゴリを、スケジューリングのプロキシとして、そして、カバートアクションの設計評価として使用しています。
次に, ストレステストによる熟考的アライメントを, アンチ・シェーミングのケーススタディとして検討した。
26以上のOOD評価(180以上の環境)では、熟考的アライメントは隠蔽作用率(OpenAI o3: 13%->0.4%)を低下させるが、完全には排除しない。
私たちの緩和は、以前モデルに訓練された隠れた目標をエージェントが追うのをほとんど止めることができます。
モデルのチェーン・オブ・シント(CoT)は、アライメントに対して評価されることの認識をしばしば示し、この認識が隠蔽行動を減少させるという因果的証拠を示す一方で、無意識はそれを増大させる。
したがって,隠蔽行動率の低下が少なくとも部分的には状況意識によって引き起こされていることは排除できない。
トレーニングや状況認識の学習、不一致の明確な証拠の証明には、人間に適したCoTに依存していますが、標準英語の推論からモデルが離れ続けるにつれて、この劣化に頼る能力は低下します。
本論文は, スキーマに対するアライメント緩和とアライメント評価についての研究を奨励するものである。
関連論文リスト
- Training Agents to Self-Report Misbehavior [6.238288009817414]
本稿では,エージェントが秘密裏に誤動作した場合に,目に見える信号を生成するよう訓練する自己犯罪訓練を提案する。
GPT-4.1 と Gemini-2.0 エージェントをトレーニングして、behaving 時に report_scheming() ツールを呼び出します。
自己犯罪は未発見の攻撃率を大幅に低下させる。
論文 参考訳(メタデータ) (2026-02-25T18:47:17Z) - When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents [50.5814495434565]
この研究は、コンピュータ利用エージェント(CUA)における不整合検出を定義し、研究する最初の試みである。
実世界のCUAデプロイメントにおける3つの一般的なカテゴリを特定し、人間の注釈付きアクションレベルのアライメントラベルを用いたリアルな軌跡のベンチマークであるMisActBenchを構築した。
本稿では,実行前に不整合を検知し,構造化されたフィードバックによって繰り返し修正する,実用的で普遍的なガードレールであるDeActionを提案する。
論文 参考訳(メタデータ) (2026-02-09T18:41:15Z) - Unknown Unknowns: Why Hidden Intentions in LLMs Evade Detection [4.514361164656055]
意図,メカニズム,文脈,影響によって編成された,隠された意図の10つのカテゴリの分類法を導入する。
我々は,理性判定や非理性判定を含む検出手法を体系的に評価する。
実世界の現実的な環境、特に低頻度条件下では、検出が崩壊することがわかった。
論文 参考訳(メタデータ) (2026-01-26T14:59:17Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness [27.956005890869267]
コンピュータ・ユース・エージェント(CUA)がBGD(Blind Goal-Directedness)を一貫して表示することを示す。
BGDは、実現可能性、安全性、信頼性、コンテキストに関わらず、目標を追求するバイアスである。
これら3つのパターンをキャプチャする90のタスクのベンチマークであるBLIND-ACTを開発した。
論文 参考訳(メタデータ) (2025-10-02T04:52:15Z) - Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models [1.6639438555897186]
私たちは、Chain-of-Thoughtを無効にした悪意のある行動に関する推論モデルを微調整し、評価時にCoTを再実現します。
我々は、推論モデルが広く誤解されていることに気付きます。それらは、偽りまたは偽の答えを与え、専制的な制御の欲求を表明し、シャットダウンに抵抗します。
要約すると、推論ステップは、不整合意図を明らかにし、隠蔽し、研究されたモデルにおける不整合行動を防止する。
論文 参考訳(メタデータ) (2025-06-16T08:10:04Z) - ALBAR: Adversarial Learning approach to mitigate Biases in Action Recognition [52.537021302246664]
行動認識モデルは、しばしば背景バイアス(背景の手がかりに基づく行動の推測)と前景バイアス(主題の外観に依存する)に悩まされる。
本稿では,前景や背景のバイアスを,バイアス特性の専門知識を必要とせずに軽減する,新たな対人訓練手法であるALBARを提案する。
我々は,提案手法を確立された背景と前景のバイアスプロトコル上で評価し,新しい最先端のバイアスプロトコルを設定し,HMDB51では12%以上のデバイアス性能を向上した。
論文 参考訳(メタデータ) (2025-01-31T20:47:06Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - Adversarial robustness via stochastic regularization of neural
activation sensitivity [24.02105949163359]
両防衛目標を同時に扱う新しい防衛機構を提案する。
損失面の勾配を平坦化し、逆例を見つけるのが難しくなる。
さらに、ジャコビアン正則化を利用して、正しく分類された入力から決定を遠ざける。
論文 参考訳(メタデータ) (2020-09-23T19:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。