論文の概要: Overeager Coding Agents: Measuring Out-of-Scope Actions on Benign Tasks
- arxiv url: http://arxiv.org/abs/2605.18583v1
- Date: Mon, 18 May 2026 16:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.995029
- Title: Overeager Coding Agents: Measuring Out-of-Scope Actions on Benign Tasks
- Title(参考訳): オーバーイーガー符号化エージェント:異常なタスクに対するアウト・オブ・スコープ動作の測定
- Authors: Yubin Qu, Ying Zhang, Yanjun Zhang, Gelei Deng, Yuekang Li, Leo Yu Zhang, Yi Liu,
- Abstract要約: OverEager-Genは、良質なタスクの振る舞いをオーバーイーガーするベンチマークである。
クロード・コードでは、同意宣言を削除するだけで、オーバーイーガー率は0.0%から17.1%に上昇する。
オーバーイーガー・ジェン(OverEager-Gen)は、入場前に各シナリオの識別力を認定する。
- 参考スコア(独自算出の注目度): 40.270213696031625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coding agents now run autonomously with shell, file, and network privileges. When a user issues a benign request, the agent sometimes does more than asked: it deletes unrelated files, wipes a stale credentials backup, or rewrites configuration the user never mentioned. We call these scope expansions overeager actions, an authorization problem distinct from capability failures, prompt injection, or sandbox escapes. We present OverEager-Gen, a benchmark dedicated to overeager behavior on benign tasks. Building it surfaces a measurement-validity issue: if a benchmark spells out the authorized scope inside the prompt, the agent stops inferring boundaries and starts pattern-matching declaration text. On Claude Code, stripping the consent declaration alone raises the overeager rate from 0.0% to 17.1% on paired scenarios (McNemar exact p = 2.4 x 10^-4). OverEager-Gen therefore certifies each scenario's discriminative power before admission via a behavioral-gradient validator, audits internal tool calls through a dual-channel stack (PATH-injected shim plus per-agent event streams), and ships byte-identical consent_kept and consent_stripped variants. OverEager-Bench contains 500 validated scenarios and ~7,500 runs across four agent products (Claude Code, OpenHands, Codex CLI, Gemini CLI) and six base models; a 50-sample re-annotation gives Cohen's kappa = 0.73 and rule-judge recall = 1.00. Stripping consent multiplies the overeager rate on every shared base model (Delta in [11.9, 17.2] pp). The framework axis dominates effect size: a permissive cluster (Claude Code, Codex CLI, Gemini CLI) runs at 5.4-27.7% while the ask-to-continue framework (OpenHands) sits at 0.2-4.5% (Fisher p <= 10^-5). Within-framework base-model variance reaches 15.9 pp, indicating that model-layer alignment does not fully propagate through permissive permission gating.
- Abstract(参考訳): コーディングエージェントは、シェル、ファイル、ネットワーク特権で自律的に実行される。
ユーザが良心的なリクエストを発行すると、エージェントが要求以上のことをすることがある。無関係なファイルを削除したり、古いクレデンシャルのバックアップを消去したり、ユーザが言及しなかった設定を書き換えたりする。
これらのスコープ拡張はオーバーイーガーアクションと呼ばれ、機能障害、インジェクションのプロンプト、サンドボックスエスケープとは異なる認可問題です。
We present OverEager-Gen, a benchmark for overeager behavior on beign task。
ベンチマークがプロンプト内の承認されたスコープをスペルアウトすると、エージェントは境界を推論し、パターンマッチング宣言テキストを開始する。
Claude Codeでは、同意宣言のみを削除すれば、ペアシナリオでのオーバーイーガーレートが0.0%から17.1%に上昇する(McNemarの正確なp = 2.4 x 10^-4)。
それゆえ、OverEager-Genは、振る舞い段階のバリデータを介して、各シナリオの識別力を認定し、デュアルチャネルスタック(PATH注入シムとエージェント毎のイベントストリーム)を通じて内部ツールコールを監査し、バイト単位のconsent_keptとconsent_strippedの変種を出荷する。
OverEager-Benchには500の検証済みシナリオと,4つのエージェント製品(Claude Code, OpenHands, Codex CLI, Gemini CLI)と6つのベースモデルを対象とした約7,500の実行が含まれている。
ストリッピング同意は、共有ベースモデルごとにオーバーイーガーレートを乗じる(Delta in [11.9, 17.2] pp)。
寛容なクラスタ(Claude Code, Codex CLI, Gemini CLI)は5.4~27.7%で動作し、Request-to-Continueフレームワーク(OpenHands)は0.2-4.5%(Fisher p <= 10^-5)である。
フレーム内ベースモデルの分散は15.9 ppに達し、モデル層アライメントがパーミッシブ・パーミッション・ゲーティングによって完全に伝播しないことを示す。
関連論文リスト
- WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - Instruction Adherence in Coding Agent Configuration Files: A Factorial Study of Four File-Structure Variables [0.0]
コーディングエージェントはセッション開始時に設定ファイルを読み、内部の規約に従うことが期待されている。
4つの操作変数を用いたこれらの選択の系統的要因分析を報告する。
4つの構造変数または3つの双方向相互作用は、多重検定補正後に検出可能なコントラストを生成しない。
論文 参考訳(メタデータ) (2026-05-11T06:09:47Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use [0.0]
既存のセキュリティレイヤでは、AIエージェントに何ができるか、それが主張するものを実行したのか、マルチエージェントインタラクションで何が起きたのかを検証できない。
既存のフレームワークはこれら2つを詳述し、サイレントな能力のエスカレーションを可能にし、検証済みの証明なしに相互作用を残す。
我々は3つのエージェントガバナンス要件を導出する:能力の完全性(G1)、行動の妥当性(G2)、相互作用監査性(G3)。
基本(Ed25519, SHA-256; 97 us verify)と拡張(BBS+選択開示、Groth16 DV-SNARK; 13.8 ms)の2つの暗号に依存しないインスタンス化で検証する。
論文 参考訳(メタデータ) (2026-03-15T11:46:57Z) - OpenSec: Measuring Incident Response Agent Calibration Under Adversarial Evidence [0.0]
本稿では,防衛インシデント対応エージェントの評価を行う,二重制御強化学習環境であるOpenSecを紹介する。
静的な能力ベンチマークとは異なり、OpenSecは敵のエビデンスの下で世界状態を変える封じ込めアクションをスコアする。
GPT-5.2、Gemini 3、DeepSeekは100%のエピソードを90-97%の偽陽性率で封じ込めている。
論文 参考訳(メタデータ) (2026-01-28T22:12:54Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。