論文の概要: Towards Policy-Compliant Agents: Learning Efficient Guardrails For Policy Violation Detection
- arxiv url: http://arxiv.org/abs/2510.03485v1
- Date: Fri, 03 Oct 2025 20:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.068097
- Title: Towards Policy-Compliant Agents: Learning Efficient Guardrails For Policy Violation Detection
- Title(参考訳): 政策適合型エージェントを目指して:政策違反検出のための効果的なガードレールの学習
- Authors: Xiaofei Wen, Wenjie Jacky Mo, Yanan Xie, Peng Qi, Muhao Chen,
- Abstract要約: PolicyGuardBenchは、エージェントのトラジェクトリにおけるポリシー違反を検出するための約60kのサンプルのベンチマークである。
PolicyGuard-4Bは軽量のガードレールモデルであり、すべてのタスクに対して強力な検出精度を提供する。
PolicyGuardBench と PolicyGuard-4B は、Webエージェントのトラジェクトリにおけるポリシーコンプライアンスを研究するための、最初の包括的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 25.53228630260007
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Autonomous web agents need to operate under externally imposed or human-specified policies while generating long-horizon trajectories. However, little work has examined whether these trajectories comply with such policies, or whether policy violations persist across different contexts such as domains (e.g., shopping or coding websites) and subdomains (e.g., product search and order management in shopping). To address this gap, we introduce PolicyGuardBench, a benchmark of about 60k examples for detecting policy violations in agent trajectories. From diverse agent runs, we generate a broad set of policies and create both within subdomain and cross subdomain pairings with violation labels. In addition to full-trajectory evaluation, PolicyGuardBench also includes a prefix-based violation detection task where models must anticipate policy violations from truncated trajectory prefixes rather than complete sequences. Using this dataset, we train PolicyGuard-4B, a lightweight guardrail model that delivers strong detection accuracy across all tasks while keeping inference efficient. Notably, PolicyGuard-4B generalizes across domains and preserves high accuracy on unseen settings. Together, PolicyGuardBench and PolicyGuard-4B provide the first comprehensive framework for studying policy compliance in web agent trajectories, and show that accurate and generalizable guardrails are feasible at small scales.
- Abstract(参考訳): 自律的なWebエージェントは、長期の軌跡を発生させながら、外部から課された、あるいは人間によって規定されたポリシーの下で運用する必要がある。
しかし、こうした方針に従うか、ドメイン(例えば、ショッピングサイトやコーディングサイト)やサブドメイン(例えば、商品検索や注文管理)など、異なるコンテキストでポリシー違反が継続するかどうかについては、ほとんど調査されていない。
このギャップに対処するために、エージェント軌跡におけるポリシー違反を検出するための約60kサンプルのベンチマークであるPhysageGuardBenchを紹介する。
多様なエージェントの実行から、幅広いポリシーを生成し、サブドメイン内とサブドメイン間のペアリングの両方を違反ラベルで生成します。
PolicyGuardBenchには、完全な軌道評価に加えて、プレフィックスベースの違反検出タスクも含まれている。
このデータセットを使用して、推論を効率よく保ちながら、すべてのタスクに対して強力な検出精度を提供する軽量ガードレールモデルであるPhysageGuard-4Bをトレーニングする。
PolicyGuard-4Bはドメインをまたいで一般化し、目に見えない設定で高い精度を保つ。
PolicyGuardBench と PolicyGuard-4B は共に,Web エージェントトラジェクトリにおけるポリシーコンプライアンスを研究するための,最初の包括的なフレームワークを提供する。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Effective Red-Teaming of Policy-Adherent Agents [10.522087614181745]
タスク指向のLLMベースのエージェントは、適格性やキャンセルルールの返金といった厳格なポリシーを持つドメインで、ますます使われています。
本稿では,個人的利益のためにポリシーに忠実なエージェントを活用することを目的とした,敵対的ユーザに焦点を当てた新たな脅威モデルを提案する。
CRAFTは、ポリシーを意識した説得戦略を利用して、顧客サービスシナリオにおいてポリシーに忠実なエージェントを弱体化させるマルチエージェントのレッドチームシステムである。
論文 参考訳(メタデータ) (2025-06-11T10:59:47Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - POLTER: Policy Trajectory Ensemble Regularization for Unsupervised
Reinforcement Learning [30.834631947104498]
本稿では,任意のURLアルゴリズムに適用可能な事前学習を正規化するためのPOLTERを提案する。
教師なし強化学習ベンチマーク(URLB)におけるPOLTERの評価を行った。
本稿では,データと知識に基づく多種多様なURLアルゴリズムの性能を,平均19%,ベストケースで最大40%向上させることで,このアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2022-05-23T14:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。