論文の概要: SNARE: Adaptive Scenario Synthesis for Eliciting Overeager Behavior in Coding Agents
- arxiv url: http://arxiv.org/abs/2605.28122v1
- Date: Wed, 27 May 2026 08:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.875563
- Title: SNARE: Adaptive Scenario Synthesis for Eliciting Overeager Behavior in Coding Agents
- Title(参考訳): SNARE:コーディングエージェントにおけるオーバーイーガー行動の緩和のための適応シナリオ合成
- Authors: Yubin Qu, Yi Liu, Gelei Deng, Yanjun Zhang, Yuekang Li, Ying Zhang, Leo Yu Zhang,
- Abstract要約: 符号化エージェントは、シェル、ファイル、ネットワークアクションのシーケンスとして良質なタスクを実行する。
プロンプトは敵ではなく、実行は成功しますが、スコープ外ステップでは認証情報をリークしたり、ファイルを削除することができます。
既存のベンチマークでは、タスク補完スイートは、完了した実行を承認し、jailbreakスイートは、逆のプロンプトをプローブし、以前のオーバーイーガーベンチマークは、各エージェントモデルペアに単一の固定プロンプトを適用する。
再利用可能なスコープから良性シナリオを構成するパイプラインであるSNAREを提案する。
- 参考スコア(独自算出の注目度): 40.270213696031625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A coding agent executes a benign task as a sequence of shell, file, and network actions, any of which can quietly exceed the authorized scope while the task still completes. We call this overeager behavior: the prompt is not adversarial and the run succeeds, yet an out-of-scope step can leak credentials or delete files. Existing benchmarks miss it: task-completion suites credit any finished run, jailbreak suites probe adversarial prompts, and the one prior overeager benchmark applies a single fixed prompt set to every agent-model pair, leaving its easiest and most resistant pairs under-measured. We present SNARE (Synthesizing Non-adversarial scenarios for Adaptive Reward-guided Elicitation), a pipeline that composes benign scenarios from reusable scope and trap fragments, scores each run with a judge-free oracle flagging trap-pattern matches and unsolicited file additions or deletions, and uses Thompson sampling to steer each pair's run budget toward the scenarios that most often trigger it. Instantiating it over 24 overeager archetypes yields OverEager, which we run across a 4x5 matrix of four coding agents and five base models. Across 10,000 benign runs, 19.51% trigger overeager behavior, with per-pair rates spanning 11.9x. This variation is driven by the agent framework, not the model: the framework accounts for 56% of it against the model's 21%, so any single-framework or single-model evaluation undercounts the matrix by about a fifth.
- Abstract(参考訳): 符号化エージェントは、シェル、ファイル、ネットワークアクションのシーケンスとして良質なタスクを実行する。
プロンプトは敵ではなく、実行は成功しますが、スコープ外ステップでは認証情報をリークしたり、ファイルを削除することができます。
既存のベンチマークでは、タスク補完スイートは、完了した実行を承認し、jailbreakスイートは、敵のプロンプトを探索し、以前のオーバーイーガーベンチマークは、各エージェントモデルペアに単一の固定プロンプトセットを適用し、最も簡単かつ最も抵抗性の高いペアを未測定のまま残している。
SNARE(Synthesizing Non-adversarial scenarios for Adaptive Reward-guided Elicitation)は、再利用可能なスコープとトラップフラグメントから良質なシナリオを構成するパイプラインで、各実行を、パターンマッチと未分離ファイルの追加または削除をフラグ付けする判断自由オラクルでスコア付けし、トンプソンサンプリングを使用して、各ペアの実行予算を最も頻繁にトリガーするシナリオに向けて調整する。
4つの符号化エージェントと5つのベースモデルからなる4x5マトリクスにまたがるオーバーイーガーを24以上のオーバーイーガーアーチタイプで実装すると、OverEagerが生成される。
1万本以上のベニグラン、19.51%のトリガーオーバーイーガーが走り、ペア当たりの速度は11.9倍である。
このバリエーションは、モデルではなくエージェントフレームワークによって駆動される:フレームワークはモデルの21%に対して56%を占める。
関連論文リスト
- EvoCode-Bench: Evaluating Coding Agents in Multi-Turn Iterative Interactions [9.297494684604763]
EvoCode-Benchは26のステートフルコーディングタスクと227のラウンドのベンチマークである。
各タスクはエージェントのワークスペースを5~15ラウンド保存し、観測可能な振る舞いを通じて要求を記述する。
MT@4は4段階のフェールストップマルチラウンドスコアであり、SRは参照完了前の状態からのシングルラウンドスコアである。
論文 参考訳(メタデータ) (2026-05-22T18:17:28Z) - AgentAtlas: Beyond Outcome Leaderboards for LLM Agents [0.025718125188898048]
AgentAtlasは、診断語彙および監査プロトコルとしてのエージェント評価を再設定する。
i)6状態制御-決定分類(Act / Ask / Refuse / Stop / Confirm / Recover)、(ii)一次誤差源と下流衝撃を持つ軌道障害語彙、(iv)8つのモデルで評価された合成1,342-itemに関する実証的プロトコル研究。
論文 参考訳(メタデータ) (2026-05-19T22:05:12Z) - Overeager Coding Agents: Measuring Out-of-Scope Actions on Benign Tasks [40.270213696031625]
OverEager-Genは、良質なタスクの振る舞いをオーバーイーガーするベンチマークである。
クロード・コードでは、同意宣言を削除するだけで、オーバーイーガー率は0.0%から17.1%に上昇する。
オーバーイーガー・ジェン(OverEager-Gen)は、入場前に各シナリオの識別力を認定する。
論文 参考訳(メタデータ) (2026-05-18T16:00:41Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks [1.1435139523855764]
本稿では,インジェクション攻撃をリアルタイムに検出・中和する新しいマルチエージェント・ディフェンス・フレームワークを提案する。
我々は2つの異なるアーキテクチャ、シーケンシャル・チェーン・オブ・エージェント・パイプラインと階層的コーディネータ・ベース・システムを用いてアプローチを評価した。
論文 参考訳(メタデータ) (2025-09-16T19:11:28Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。