論文の概要: Measuring the Permission Gate: A Stress-Test Evaluation of Claude Code's Auto Mode
- arxiv url: http://arxiv.org/abs/2604.04978v1
- Date: Sat, 04 Apr 2026 17:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.37606
- Title: Measuring the Permission Gate: A Stress-Test Evaluation of Claude Code's Auto Mode
- Title(参考訳): パーミッションゲートの測定:クロードコードのオートモードの応力-テスト評価
- Authors: Zimo Ji, Zongjie Li, Wenyuan Jiang, Yudong Gao, Shuai Wang,
- Abstract要約: Claude Codeの自動モードは、AIコーディングエージェントに最初にデプロイされたパーミッションシステムである。
Anthropicは、生産トラフィックに対して0.4%の偽陽性率と17%の偽陰性率を報告している。
本研究では, 個々の行動レベルでの状態変化行動253件を, オラクル・グラウンドの真理に対して評価した。
- 参考スコア(独自算出の注目度): 9.116800340266066
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Claude Code's auto mode is the first deployed permission system for AI coding agents, using a two-stage transcript classifier to gate dangerous tool calls. Anthropic reports a 0.4% false positive rate and 17% false negative rate on production traffic. We present the first independent evaluation of this system on deliberately ambiguous authorization scenarios, i.e., tasks where the user's intent is clear but the target scope, blast radius, or risk level is underspecified. Using AmPermBench, a 128-prompt benchmark spanning four DevOps task families and three controlled ambiguity axes, we evaluate 253 state-changing actions at the individual action level against oracle ground truth. Our findings characterize auto mode's scope-escalation coverage under this stress-test workload. The end-to-end false negative rate is 81.0% (95% CI: 73.8%-87.4%), substantially higher than the 17% reported on production traffic, reflecting a fundamentally different workload rather than a contradiction. Notably, 36.8% of all state-changing actions fall outside the classifier's scope via Tier 2 (in-project file edits), contributing to the elevated end-to-end FNR. Even restricting to the 160 actions the classifier actually evaluates (Tier 3), the FNR remains 70.3%, while the FPR rises to 31.9%. The Tier 2 coverage gap is most pronounced on artifact cleanup (92.9% FNR), where agents naturally fall back to editing state files when the expected CLI is unavailable. These results highlight a coverage boundary worth examining: auto mode assumes dangerous actions transit the shell, but agents routinely achieve equivalent effects through file edits that the classifier does not evaluate.
- Abstract(参考訳): Claude Codeの自動モードは、危険なツールコールをゲートするために2段階のスクリプティング分類器を使用して、AIコーディングエージェントに最初にデプロイされたパーミッションシステムである。
Anthropicは、生産トラフィックに対して0.4%の偽陽性率と17%の偽陰性率を報告している。
本研究では,ユーザの意図が明確だが対象範囲,爆発半径,リスクレベルが不明確であるタスクについて,意図的不明瞭な承認シナリオに対して,本システムの最初の独立性評価を行う。
4つのDevOpsタスクファミリと3つのコントロールされたあいまいさ軸にまたがる128プロンプトベンチマークであるAmPermBenchを使用して、私たちは、オラクルの真実に対する個々のアクションレベルで253の状態変化アクションを評価します。
このストレステスト負荷下でのオートモードのスコープエスカレーションカバレッジを特徴付ける。
エンド・ツー・エンドの偽陰率は81.0%(95% CI: 73.8%-87.4%)であり、生産トラフィックで報告された17%よりもかなり高く、矛盾ではなく基本的に異なるワークロードを反映している。
特に、状態変化のアクションの36.8%はTier 2(プロジェクト内ファイル編集)を介して分類器のスコープ外にあり、FNRの上昇に寄与している。
分類器が実際に評価する160のアクションにさえ制限されている(Tier 3)が、FNRは70.3%、FPRは31.9%まで上昇している。
Tier 2のカバレッジギャップはアーティファクトのクリーンアップ(92.9% FNR)で最も顕著であり、CLIが利用できない場合はエージェントが自然に状態ファイルの編集にフォールバックする。
オートモードは、シェルを通過する危険なアクションを前提としますが、エージェントは、分類器が評価しないファイル編集によって、通常同じ効果を達成します。
関連論文リスト
- Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review [6.417595678110472]
ソフトウェアサプライチェーン攻撃において,確認バイアスがLSMベースの脆弱性検出に影響を及ぼすか,また,この障害モードを悪用できるかを検討する。
調査1では,5つのフレーミング条件下で4つの最先端モデルに対して評価された250個のCVE脆弱性/パッチペアに対する制御実験により,確認バイアスを定量化する。
調査2は、既知の脆弱性を再導入する敵のプルリクエストを模倣して、セキュリティの改善やプルリクエストメタデータによる緊急機能修正を実施可能であることを評価する。
論文 参考訳(メタデータ) (2026-03-19T10:40:27Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications [0.0]
テスト駆動型AIエージェント定義(TDAD)は、エージェントプロンプトをコンパイルされたアーティファクトとして扱う方法論である。
SpecSuite-CoreのTDADは、ポリシーコンプライアンス、グラウンドド・アナリティクス、ランブックの遵守、決定論的強制にまたがる4つのエージェントのベンチマークである。
論文 参考訳(メタデータ) (2026-03-09T18:04:54Z) - ILION: Deterministic Pre-Execution Safety Gates for Agentic AI Systems [0.0]
我々はエージェントAIシステムのための決定論的実行ゲートであるILIONを提案する。
ILIONは、統計的トレーニングやAPI依存なしに、提案されたエージェントアクションをBLOCKまたはALLOWに分類する。
ILIONは4.3F1ポイントを上回り、2000倍高速に動作し、偽陽性率を4倍下げている。
論文 参考訳(メタデータ) (2026-02-22T12:25:42Z) - When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents [50.5814495434565]
この研究は、コンピュータ利用エージェント(CUA)における不整合検出を定義し、研究する最初の試みである。
実世界のCUAデプロイメントにおける3つの一般的なカテゴリを特定し、人間の注釈付きアクションレベルのアライメントラベルを用いたリアルな軌跡のベンチマークであるMisActBenchを構築した。
本稿では,実行前に不整合を検知し,構造化されたフィードバックによって繰り返し修正する,実用的で普遍的なガードレールであるDeActionを提案する。
論文 参考訳(メタデータ) (2026-02-09T18:41:15Z) - OpenSec: Measuring Incident Response Agent Calibration Under Adversarial Evidence [0.0]
本稿では,防衛インシデント対応エージェントの評価を行う,二重制御強化学習環境であるOpenSecを紹介する。
静的な能力ベンチマークとは異なり、OpenSecは敵のエビデンスの下で世界状態を変える封じ込めアクションをスコアする。
GPT-5.2、Gemini 3、DeepSeekは100%のエピソードを90-97%の偽陽性率で封じ込めている。
論文 参考訳(メタデータ) (2026-01-28T22:12:54Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。