論文の概要: Factor(U,T): Controlling Untrusted AI by Monitoring their Plans
- arxiv url: http://arxiv.org/abs/2512.14745v1
- Date: Fri, 12 Dec 2025 19:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.710494
- Title: Factor(U,T): Controlling Untrusted AI by Monitoring their Plans
- Title(参考訳): 因子(U,T):信頼できないAIの計画監視による制御
- Authors: Edward Lue Chee Lip, Anthony Channg, Diana Kim, Aaron Sandoval, Kevin Zhu,
- Abstract要約: Factor($,$$)を導入します。信頼できないが悪意のあるモデルが分解され、信頼できるモデルが子タスクを実装します。
我々はPythonコーディングタスクのデータセット上でFacterを評価する。
強力な安全性(1.2%)と優れた差別(AUROC 0.96)を実現し、分解のみの監視が失敗した場合に実装コンテキストの監視が成功することを示した。
- 参考スコア(独自算出の注目度): 5.673677307189851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI capabilities advance, we increasingly rely on powerful models to decompose complex tasks $\unicode{x2013}$ but what if the decomposer itself is malicious? Factored cognition protocols decompose complex tasks into simpler child tasks: one model creates the decomposition, while other models implement the child tasks in isolation. Prior work uses trusted (weaker but reliable) models for decomposition, which limits usefulness for tasks where decomposition itself is challenging. We introduce Factor($U$,$T$), in which an untrusted (stronger but potentially malicious) model decomposes while trusted models implement child tasks. Can monitors detect malicious activity when observing only natural language task instructions, rather than complete solutions? We baseline and red team Factor($U$,$T$) in control evaluations on BigCodeBench, a dataset of Python coding tasks. Monitors distinguishing malicious from honest decompositions perform poorly (AUROC 0.52) compared to monitors evaluating complete Python solutions (AUROC 0.96). Furthermore, Factor($D$,$U$), which uses a trusted decomposer and monitors concrete child solutions, achieves excellent discrimination (AUROC 0.96) and strong safety (1.2% ASR), demonstrating that implementation-context monitoring succeeds where decomposition-only monitoring fails.
- Abstract(参考訳): AI機能が進歩するにつれて、複雑なタスクを分解する強力なモデルにますます依存しています。
因子認識プロトコルは複雑なタスクを単純な子タスクに分解する: 1つのモデルが分解を生成し、他のモデルが子タスクを独立して実装する。
以前の作業では、分解自体が困難であるタスクの有用性を制限する、信頼性のある(重大だが信頼性の高い)モデルを分解に使用していました。
ここでFact($U$,$T$)を導入します。信頼できない(ストロンガーだが悪意のある)モデルが分解され、信頼されたモデルが子タスクを実装します。
完全なソリューションではなく、自然言語タスク命令のみを観察する場合、モニタは悪意のあるアクティビティを検出することができるのか?
ベースラインとレッドチームファクタ($U$,$T$)は、PythonコーディングタスクのデータセットであるBigCodeBenchのコントロール評価です。
悪意のある分解と正直な分解を区別するモニターは、完全なPythonソリューションを評価するモニター(AUROC 0.96)と比較して性能が低い(AUROC 0.52)。
さらにFact($D$,$U$)は、信頼された逆コンパイラを使用し、具体的な児童ソリューションを監視し、優れた差別(AUROC 0.96)と強力な安全性(1.2% ASR)を達成する。
関連論文リスト
- Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity [3.117948413097524]
CoT(Chain-of- Thought)出力によって、モデルのステップバイステップ推論を読み取ることができます。
BBH,GPQA,MMLUの命令調整モデルと推論モデルについて検討した。
論文 参考訳(メタデータ) (2025-10-31T11:14:39Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Adversaries Can Misuse Combinations of Safe Models [36.863895028598336]
開発者は、AIシステムが敵によって悪用されるかどうかを、リリース前に評価しようとする。
各モデルが安全である場合でも、敵はモデルの組み合わせを誤用できることを示す。
私たちの研究は、完全に整合したフロンティアシステムでさえ、悪意のある出力を生成することなく、誤用を可能にすることを示唆しています。
論文 参考訳(メタデータ) (2024-06-20T17:43:18Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Collaborative Inference for Efficient Remote Monitoring [34.27630312942825]
これをモデルレベルで解決するための簡単なアプローチは、より単純なアーキテクチャを使用することです。
本稿では,局所的なモニタリングツールとして機能する単純な関数の和として,予測モデルを分解した代替手法を提案する。
ローカル監視機能が安全であることを保証するために、後者にサイン要求が課される。
論文 参考訳(メタデータ) (2020-02-12T01:57:17Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。