論文の概要: Basic Legibility Protocols Improve Trusted Monitoring
- arxiv url: http://arxiv.org/abs/2602.10153v1
- Date: Mon, 09 Feb 2026 19:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.188422
- Title: Basic Legibility Protocols Improve Trusted Monitoring
- Title(参考訳): 信頼されたモニタリングを改善する基本レガシープロトコル
- Authors: Ashwin Sreevatsa, Sebastian Prasanna, Cody Rushing,
- Abstract要約: AIコントロール研究アジェンダは、AIシステムがデプロイメント中に有害な行動を起こさないように制御プロトコルを評価することを目的としている。
人間の監視は高価であるため、信頼できる監視方法がある。
我々は、信頼できないモデルに対して、モニターが理解しやすいアクションを取ることを奨励する可否プロトコルを導入する。
- 参考スコア(独自算出の注目度): 1.8012533382373042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The AI Control research agenda aims to develop control protocols: safety techniques that prevent untrusted AI systems from taking harmful actions during deployment. Because human oversight is expensive, one approach is trusted monitoring, where weaker, trusted models oversee stronger, untrusted models$\unicode{x2013}$but this often fails when the untrusted model's actions exceed the monitor's comprehension. We introduce legibility protocols, which encourage the untrusted model to take actions that are easier for a monitor to evaluate. We perform control evaluations in the APPS coding setting, where an adversarial agent attempts to write backdoored code without detection. We study legibility protocols that allow the untrusted model to thoroughly document its code with comments$\unicode{x2013}$in contrast to prior work, which removed comments to prevent deceptive ones. We find that: (i) commenting protocols improve safety without sacrificing task performance relative to comment-removal baselines; (ii) commenting disproportionately benefits honest code, which typically has a natural explanation that resolves monitor suspicion, whereas backdoored code frequently lacks an easy justification; (iii) gains from commenting increase with monitor strength, as stronger monitors better distinguish genuine justifications from only superficially plausible ones.
- Abstract(参考訳): AIコントロール研究アジェンダは、信頼できないAIシステムがデプロイメント中に有害な行動を起こすのを防ぐ安全技術であるコントロールプロトコルの開発を目標としている。
人間の監視は高価であるため、信頼性の高いモデルでは、信頼性の低いモデルでは、信頼性の低いモデルでは、信頼性の低いモデルでは、信頼できないモデルのアクションがモニターの理解を超えると失敗することが多い。
我々は、信頼できないモデルに対して、モニターが評価し易いアクションを取ることを奨励する可否プロトコルを導入する。
我々はAPPS符号化設定で制御評価を行い、敵エージェントが検出せずにバックドアコードを書き込もうとする。
我々は、信頼できないモデルがコメント$\unicode{x2013}$でそのコードを徹底的に文書化できる正当性プロトコルについて研究する。
以下に示す。
(i)コメントプロトコルは、コメント削除基準に対するタスクパフォーマンスを犠牲にすることなく、安全性を向上する。
(二)不当なコメントは、正直なコードに有利であり、通常、疑念をモニターする自然な説明があり、一方、バックドアされたコードは、容易に正当化できないことが多い。
第三に、モニターの強度が増すと、より強いモニターが真の正当性を、表面的にもっともらしいものだけと区別しやすくなる。
関連論文リスト
- Factor(T,U): Factored Cognition Strengthens Monitoring of Untrusted AI [2.383032749450152]
信頼されたモデルがタスクを分解し、信頼できないモデルがそれぞれの子タスクを分離して解決し、その結果が完全なソリューションに再組み立てされる、因子認識に基づくプロトコルを開発する。
我々は、APPS符号化設定にプロトコルを実装し、敵のGPT-4.1 Nanoのバックドア試行に対してレッドチームで対処する。
i)信頼監視プロトコルに因子認識を追加することで安全性が41%から63%向上し,(ii)監視性能が向上するため安全性が向上し,(iii)有能なLCMがAPPSでバックドアを書くのが難しくなる。
論文 参考訳(メタデータ) (2025-12-01T19:37:08Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Ctrl-Z: Controlling AI Agents via Resampling [2.505902477669827]
マルチステップシステム管理タスクに挑戦する257のデータセットであるBashBenchを構築した。
各種安全対策により、敵に構築されたAIエージェントが悪意のあるコードを秘密裏にダウンロードして実行することを防ぐことができるかどうかを評価する。
論文 参考訳(メタデータ) (2025-04-14T16:22:11Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - CP-Guard+: A New Paradigm for Malicious Agent Detection and Defense in Collaborative Perception [53.088988929450494]
協調知覚(CP)は、安全で自律的な運転のための有望な方法である。
本稿では,悪意のあるエージェントを機能レベルで効果的に識別する,悪意のあるエージェント検出のための新しいパラダイムを提案する。
また,CP-Guard+と呼ばれる堅牢な防御手法を開発し,良性の表現と悪質な特徴とのマージンを高める。
論文 参考訳(メタデータ) (2025-02-07T12:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。