論文の概要: Honeypot Protocol
- arxiv url: http://arxiv.org/abs/2604.13301v1
- Date: Tue, 14 Apr 2026 21:13:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.301031
- Title: Honeypot Protocol
- Title(参考訳): Honeypot プロトコル
- Authors: Najmul Hasan,
- Abstract要約: ハニーポットプロトコルテストは、システムプロンプトのみを3つの条件で変更することで、コンテキスト依存の振る舞いをテストする。
我々は、BashArenaのClaude Opus 4.6を、正直モードとアタックモードの両方の3つの条件で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trusted monitoring, the standard defense in AI control, is vulnerable to adaptive attacks, collusion, and strategic attack selection. All of these exploit the fact that monitoring is passive: it observes model behavior but never probes whether the model would behave differently under different perceived conditions. We introduce the honeypot protocol, which tests for context-dependent behavior by varying only the system prompt across three conditions (evaluation, synthetic deployment, explicit no-monitoring) while holding the task, environment, and scoring identical. We evaluate Claude Opus 4.6 in BashArena across all three conditions in both honest and attack modes. The model achieved 100% main task success and triggered zero side tasks uniformly across conditions, providing a baseline for future comparisons with stronger attack policies and additional models.
- Abstract(参考訳): AI制御における標準的な防御である信頼された監視は、適応攻撃、共謀、戦略的攻撃選択に対して脆弱である。
これらの全ては、モニタリングは受動的であるという事実を悪用する:それはモデルの振る舞いを観察するが、異なる認識条件下でモデルが異なる振る舞いをするかどうかを決して調査しない。
タスク,環境,評価を同一に保ちながら,システムプロンプトのみを3つの条件(評価,合成展開,明示的な監視不要)で変更することにより,コンテキスト依存行動の検証を行う。
我々は、BashArenaのClaude Opus 4.6を、正直モードとアタックモードの両方の3つの条件で評価した。
このモデルは100%主要なタスク成功を達成し、条件をまたいでゼロサイドタスクを均一に起動し、より強力な攻撃ポリシーと追加モデルとの将来の比較のベースラインを提供する。
関連論文リスト
- Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - TraceGuard: Structured Multi-Dimensional Monitoring as a Collusion-Resistant Control Protocol [1.0195618602298684]
TraceGuardは5次元にわたるエージェントアクションを評価する構造化多次元監視プロトコルである。
オープンソースのControlArenaフレームワーク用の新しいモニタタイプとして実装されている。
論文 参考訳(メタデータ) (2026-04-05T05:05:59Z) - Silent Commitment Failure in Instruction-Tuned Language Models: Evidence of Governability Divergence Across Architectures [0.0]
我々は、モデルのエラーが出力コミット前に検出可能で、一度検出されると修正できる程度、統治性を導入します。
ベンチマーク精度は支配可能性を予測するものではなく、補正能力は検出と独立に異なり、同一のガバナンス足場はモデル間で逆の効果をもたらす。
本稿では,モデルとタスクの組み合わせをGovernable, Monitor Only, Steer Blind, Ungovernableの4つに分類する。
論文 参考訳(メタデータ) (2026-03-22T21:50:28Z) - vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models [58.633451339058986]
VLAモデルは一般的に、各モデルリポジトリによって独立して維持されるベンチマークスクリプト毎に評価される。
本稿では、ベンチマーク実行からモデル推論を分離するオープンソースの評価ハーネスであるvla evalを紹介する。
完全な評価では、vla eval serveとvla eval runの2つのコマンドしか必要としない。
論文 参考訳(メタデータ) (2026-03-14T14:38:53Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - KeTS: Kernel-based Trust Segmentation against Model Poisoning Attacks [17.69993201359518]
フェデレートラーニング(FL)は、ユーザが個人データを公開せずに、グローバルモデルを分散的にトレーニングすることを可能にする。
FLは、悪意のあるアクターが世界のモデルの精度を損なうためにアップデートを作成した、モデル中毒攻撃に対して脆弱なままである。
本稿では,新たな防御機構であるKernel-based Trust(KeTS)を提案する。
論文 参考訳(メタデータ) (2025-01-12T06:51:43Z) - Query-Based Adversarial Prompt Generation [72.06860443442429]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。