論文の概要: Detecting Safety Violations Across Many Agent Traces
- arxiv url: http://arxiv.org/abs/2604.11806v1
- Date: Mon, 13 Apr 2026 17:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.74956
- Title: Detecting Safety Violations Across Many Agent Traces
- Title(参考訳): エージェントトレースにおける安全違反の検出
- Authors: Adam Stein, Davis Brown, Hamed Hassani, Mayur Naik, Eric Wong,
- Abstract要約: 本稿では,クラスタリングとエージェント検索を組み合わせることで,自然言語で指定された違反を明らかにするMeerkatを紹介する。
Meerkatは誤用、不正調整、タスクゲームの設定などを通じて、モニター上の安全違反の検出を大幅に改善している。
- 参考スコア(独自算出の注目度): 41.40594315855062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To identify safety violations, auditors often search over large sets of agent traces. This search is difficult because failures are often rare, complex, and sometimes even adversarially hidden and only detectable when multiple traces are analyzed together. These challenges arise in diverse settings such as misuse campaigns, covert sabotage, reward hacking, and prompt injection. Existing approaches struggle here for several reasons. Per-trace judges miss failures that only become visible across traces, naive agentic auditing does not scale to large trace collections, and fixed monitors are brittle to unanticipated behaviors. We introduce Meerkat, which combines clustering with agentic search to uncover violations specified in natural language. Through structured search and adaptive investigation of promising regions, Meerkat finds sparse failures without relying on seed scenarios, fixed workflows, or exhaustive enumeration. Across misuse, misalignment, and task gaming settings, Meerkat significantly improves detection of safety violations over baseline monitors, discovers widespread developer cheating on a top agent benchmark, and finds nearly 4x more examples of reward hacking on CyBench than previous audits.
- Abstract(参考訳): 安全違反を特定するために、監査人はしばしば大量のエージェントトレースを探索する。
この探索は、障害が稀で複雑で、時には逆向きに隠され、複数のトレースが一緒に分析された場合にのみ検出されるため、難しい。
これらの課題は、誤用キャンペーン、隠蔽サボタージュ、報酬ハッキング、即時注入といった様々な設定で生じる。
既存のアプローチは、いくつかの理由でここで苦労しています。
トレース毎の判断は、トレース間でのみ見える障害を見逃し、単純でエージェント的な監査は大きなトレースコレクションにスケールせず、固定されたモニターは予期しない振る舞いに対して脆弱である。
本稿では,クラスタリングとエージェント検索を組み合わせることで,自然言語で指定された違反を明らかにするMeerkatを紹介する。
構造化された検索と、有望な領域の適応的な調査を通じて、Meerkat氏は、シードシナリオや固定ワークフロー、徹底的な列挙に頼ることなく、スパース障害を見つける。
不正使用、不正調整、タスクゲームの設定などを通じて、Meerkatはベースラインモニタに対する安全違反の検出を大幅に改善し、トップエージェントベンチマークで広範な開発者の不正行為を発見し、前回の監査よりもCyBenchでの報酬ハッキングの例が約4倍多いことを発見した。
関連論文リスト
- When Is Enough Not Enough? Illusory Completion in Search Agents [56.98225130959051]
検索エージェントが、複数の条件をトラッキングし、検証し、維持することで、すべての要件に対して確実に理性性を持たせるかどうかを調査する。
エージェントは、未解決の制約や違反の制約にもかかわらずタスクが完了したと信じており、未検証の回答につながる。
我々は、実行中の明示的な制約状態追跡が、推論時トラッカーであるLiveLedgerを介してこれらの障害を緩和するかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-07T13:50:38Z) - PATHWAYS: Evaluating Investigation and Context Discovery in AI Web Agents [0.0]
PATHWAYSは250のマルチステップ決定タスクのベンチマークである。
Webベースのエージェントが、隠れたコンテキスト情報を発見し、正しく使用できるかをテストする。
論文 参考訳(メタデータ) (2026-02-05T06:24:23Z) - Large Language Model-Powered Smart Contract Vulnerability Detection: New
Perspectives [8.524720028421447]
本稿では, GPT-4 のような大規模言語モデル (LLM) を利用する機会, 課題, 潜在的な解決策を体系的に分析する。
高いランダム性でより多くの答えを生成することは、正しい答えを生み出す可能性を大幅に押し上げるが、必然的に偽陽性の数が増加する。
本稿では,GPTLens と呼ばれる,従来の一段階検出を2つの相乗的段階に分割し,生成と識別を行う逆方向のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T12:37:23Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。