論文の概要: StepShield: When, Not Whether to Intervene on Rogue Agents
- arxiv url: http://arxiv.org/abs/2601.22136v1
- Date: Thu, 29 Jan 2026 18:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.099392
- Title: StepShield: When, Not Whether to Intervene on Rogue Agents
- Title(参考訳): StepShield: いつ、ローグエージェントに介入すべきか?
- Authors: Gloria Felicia, Michael Eniolade, Jinfeng He, Zitha Sasindran, Hemant Kumar, Milan Hussain Angati, Sandeep Bandarupalli,
- Abstract要約: 既存のエージェント安全ベンチマークはバイナリの精度を報告し、死後分析の早期介入を混同している。
違反を検出する最初のベンチマークであるStepShieldを紹介します。
StepShieldは、評価の焦点をいつから移行することによって、より安全で経済的に実行可能なAIエージェントを構築するための、新たな基盤を提供する。
- 参考スコア(独自算出の注目度): 1.472404880217315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing agent safety benchmarks report binary accuracy, conflating early intervention with post-mortem analysis. A detector that flags a violation at step 8 enables intervention; one that reports it at step 48 provides only forensic value. This distinction is critical, yet current benchmarks cannot measure it. We introduce StepShield, the first benchmark to evaluate when violations are detected, not just whether. StepShield contains 9,213 code agent trajectories, including 1,278 meticulously annotated training pairs and a 7,935-trajectory test set with a realistic 8.1% rogue rate. Rogue behaviors are grounded in real-world security incidents across six categories. We propose three novel temporal metrics: Early Intervention Rate (EIR), Intervention Gap, and Tokens Saved. Surprisingly, our evaluation reveals that an LLM-based judge achieves 59% EIR while a static analyzer achieves only 26%, a 2.3x performance gap that is entirely invisible to standard accuracy metrics. We further show that early detection has direct economic benefits: our cascaded HybridGuard detector reduces monitoring costs by 75% and projects to $108M in cumulative savings over five years at enterprise scale. By shifting the focus of evaluation from whether to when, StepShield provides a new foundation for building safer and more economically viable AI agents. The code and data are released under an Apache 2.0 license.
- Abstract(参考訳): 既存のエージェント安全ベンチマークはバイナリの精度を報告し、死後分析の早期介入を混同している。
ステップ8で違反を通知する検出器は介入が可能であり、ステップ48で報告する検出器は法医学的価値のみを提供する。
この区別は重要であるが、現在のベンチマークでは測定できない。
違反を検出する最初のベンチマークであるStepShieldを紹介します。
StepShieldには9,213のコードエージェントの軌道が含まれており、1,278の微妙な注釈付きトレーニングペアと、現実的な8.1%のローグレートを持つ7,935の軌道テストセットが含まれている。
ローグの行動は、6つのカテゴリにわたる現実世界のセキュリティインシデントに根ざしている。
本稿では,早期介入率 (EIR) , 介入ギャップ (Intervention Gap) , トークン貯蓄 (Tokens Saved) の3つの新しい時間指標を提案する。
意外なことに、我々の評価では、LCMベースの審査員は59%のEIRを達成し、静的アナライザは26%しか達成していない。
当社のケースケード型HybridGuard検出器は、監視コストを75%削減し、5年間の企業規模での累積貯蓄で1億800万ドルに削減します。
StepShieldは、評価の焦点をいつから移行することによって、より安全で経済的に実行可能なAIエージェントを構築するための、新たな基盤を提供する。
コードとデータはApache 2.0ライセンスでリリースされている。
関連論文リスト
- OpenSec: Measuring Incident Response Agent Calibration Under Adversarial Evidence [0.0]
本稿では,防衛インシデント対応エージェントの評価を行う,二重制御強化学習環境であるOpenSecを紹介する。
静的な能力ベンチマークとは異なり、OpenSecは敵のエビデンスの下で世界状態を変える封じ込めアクションをスコアする。
GPT-5.2、Gemini 3、DeepSeekは100%のエピソードを90-97%の偽陽性率で封じ込めている。
論文 参考訳(メタデータ) (2026-01-28T22:12:54Z) - An Effective and Cost-Efficient Agentic Framework for Ethereum Smart Contract Auditing [8.735899453872966]
Heimdallrは,4つのコアイノベーションを通じてハードルを克服するために設計された,自動監査エージェントだ。
重要なビジネスロジックを保持しながら、コンテキストオーバーヘッドを最小限にします。
複雑な脆弱性を検出し、機能的なエクスプロイトを自動的にチェーンする。
論文 参考訳(メタデータ) (2026-01-25T13:28:37Z) - Can We Predict Before Executing Machine Learning Agents? [74.39460101251792]
データ中心のソリューション優先のタスクを形式化し、18,438対比較の包括的コーパスを構築する。
検証データ解析レポートを作成した場合, LLM は重要な予測能力を示すことを示す。
このフレームワークをForEAGENT(Predict-then-Verifyループを利用するエージェント)でインスタンス化し、実行ベースラインを+6%超えながらコンバージェンスを6倍高速化する。
論文 参考訳(メタデータ) (2026-01-09T16:44:17Z) - Trajectory Guard -- A Lightweight, Sequence-Aware Model for Real-Time Anomaly Detection in Agentic AI [0.0]
トラジェクトリガードはシームズ・リカレント・オートエンコーダであり、コントラスト学習によるタスク・トラジェクトリアライメントと、再構成によるシーケンシャル・アライメントを共同で学習するハイブリッド・ロス機能を備えている。
32ミリ秒のレイテンシで、当社のアプローチは LLM Judge のベースラインよりも17-27倍高速で動作し、実運用環境におけるリアルタイムの安全性検証を可能にします。
論文 参考訳(メタデータ) (2026-01-02T00:27:11Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - SeBERTis: A Framework for Producing Classifiers of Security-Related Issue Reports [8.545800179148442]
SEBERTISは、Deep Neural Networks(DNN)を語彙的キューに依存しない分類器として訓練するフレームワークである。
当社のフレームワークは,1万件のGitHubイシューレポートをキュレートしたコーパスのセキュリティ関連問題を検出する上で,0.9880のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-12-17T01:23:11Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - LLM-Powered Detection of Price Manipulation in DeFi [12.59175486585742]
分散ファイナンス(DeFi)のスマートコントラクトは数十億ドルを管理し、エクスプロイトの主要なターゲットとなっている。
価格操作の脆弱性は、しばしばフラッシュローンを通じて発生し、壊滅的な攻撃の類である。
本稿では,静的解析とLarge Language Model(LLM)に基づく推論を組み合わせたハイブリッドフレームワークPMDetectorを提案する。
論文 参考訳(メタデータ) (2025-10-24T09:13:30Z) - Online Fair Division for Personalized $2$-Value Instances [51.278096593080456]
オンラインフェアディビジョン(オンラインフェアディビジョン)では,商品が一度に1つずつ到着し,定額のエージェントが配置されている。
善が現れると、各エージェントの持つ値が明らかになり、エージェントの1つに即時かつ不可逆的に割り当てられなければならない。
我々は、よく知られた公平性の概念に関して、最悪の場合の保証を得る方法を示す。
論文 参考訳(メタデータ) (2025-05-28T09:48:16Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Detection as Regression: Certified Object Detection by Median Smoothing [50.89591634725045]
この研究は、ランダム化平滑化による認定分類の最近の進歩によって動機付けられている。
我々は、$ell$-bounded攻撃に対するオブジェクト検出のための、最初のモデル非依存、トレーニング不要、認定された防御条件を得る。
論文 参考訳(メタデータ) (2020-07-07T18:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。