論文の概要: Policy-Invisible Violations in LLM-Based Agents
- arxiv url: http://arxiv.org/abs/2604.12177v1
- Date: Tue, 14 Apr 2026 01:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.182181
- Title: Policy-Invisible Violations in LLM-Based Agents
- Title(参考訳): LLM系薬剤の政策非可視振動
- Authors: Jie Wu, Ming Gong,
- Abstract要約: コンプライアンスがエンティティ属性、コンテキスト状態、あるいはエージェントの可視的コンテキストから欠落したセッション履歴に依存する場合。
PhantomPolicyは、8つの違反カテゴリにまたがるベンチマークで、バランスの取れた違反と安全管理のケースを示す。
本稿では,反ファクトグラフシミュレーションに基づく実施フレームワークであるSentinelを紹介する。
- 参考スコア(独自算出の注目度): 10.660248467840821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based agents can execute actions that are syntactically valid, user-sanctioned, and semantically appropriate, yet still violate organizational policy because the facts needed for correct policy judgment are hidden at decision time. We call this failure mode policy-invisible violations: cases in which compliance depends on entity attributes, contextual state, or session history absent from the agent's visible context. We present PhantomPolicy, a benchmark spanning eight violation categories with balanced violation and safe-control cases, in which all tool responses contain clean business data without policy metadata. We manually review all 600 model traces produced by five frontier models and evaluate them using human-reviewed trace labels. Manual review changes 32 labels (5.3%) relative to the original case-level annotations, confirming the need for trace-level human review. To demonstrate what world-state-grounded enforcement can achieve under favorable conditions, we introduce Sentinel, an enforcement framework based on counterfactual graph simulation. Sentinel treats every agent action as a proposed mutation to an organizational knowledge graph, performs speculative execution to materialize the post-action world state, and verifies graph-structural invariants to decide Allow/Block/Clarify. Against human-reviewed trace labels, Sentinel substantially outperforms a content-only DLP baseline (68.8% vs. 93.0% accuracy) while maintaining high precision, though it still leaves room for improvement on certain violation categories. These results demonstrate what becomes achievable once policy-relevant world state is made available to the enforcement layer.
- Abstract(参考訳): LLMベースのエージェントは、構文的に有効で、ユーザ承認され、セマンティックに適切であるアクションを実行することができるが、正確なポリシー判断に必要な事実が決定時に隠されているため、組織的なポリシーに違反している。
コンプライアンスがエンティティ属性、コンテキスト状態、あるいはエージェントの可視的コンテキストから欠落したセッション履歴に依存する場合。
PhantomPolicyは、8つの違反カテゴリにまたがるベンチマークで、バランスの取れた違反と、すべてのツール応答がポリシーメタデータなしでクリーンなビジネスデータを含む安全な制御ケースを提供します。
5つのフロンティアモデルによって生成された600のモデルトレースを手動でレビューし、人間レビューされたトレースラベルを用いて評価する。
手動によるレビューでは、オリジナルのケースレベルのアノテーションと比較して32のラベル(5.3%)が変更され、トレースレベルの人間によるレビューの必要性が確認された。
本研究では,実測グラフシミュレーションに基づく実施フレームワークであるSentinelを導入する。
センチネルは、全てのエージェントアクションを組織知識グラフへの突然変異として扱い、ポストアクションの世界状態を実現するための投機的実行を行い、グラフ構造不変性を検証して、Allow/Block/Clarifyを決定する。
人間のレビューされたトレースラベルに対して、SentinelはコンテンツのみのDLPベースライン(68.8%対93.0%の精度)を大幅に上回っているが、特定の違反カテゴリの改善の余地は残っている。
これらの結果は、政策関連の世界状態が実行層で利用可能になったら、何が達成可能なのかを示す。
関連論文リスト
- KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation [72.01173512175531]
KnowU-Benchはパーソナライズされたモバイルエージェントのためのオンラインベンチマークである。
42のGUIタスク、86のパーソナライズされたタスク、64のプロアクティブタスクをカバーしている。
明示的なタスク実行に優れるエージェントは、あいまいな指示の下で50%以下に低下する。
論文 参考訳(メタデータ) (2026-04-09T16:50:50Z) - SentinelAgent: Intent-Verified Delegation Chains for Securing Federal Multi-Agent AI Systems [0.0]
本稿では、連邦政府のマルチエージェントAIシステムにおけるデリゲートチェーンの検証のための正式なフレームワークであるSentinelAgentを紹介する。
Delegation Chain Calculus (DCC) は7つの特性を定義している。6つの決定論的(権威の狭さ、ポリシーの保存、法的な再構築性、カスケードの封じ込め、スコープ-アクションの適合性、出力スキーマの適合性)と1つの確率的(インテリジェントな保存)である。
Intent-Preserving Delegation Protocol (I PDP)は、非LLM Delegation Authority Serviceを通じて実行時に7つのプロパティをすべて強制する。
論文 参考訳(メタデータ) (2026-04-03T06:25:18Z) - Near-Miss: Latent Policy Failure Detection in Agentic Workflows [9.719140082591956]
エージェントの会話トレースにおける遅延ポリシー障害を検出するための新しい指標を提案する。
その結果,ツールコールの変異を伴う軌道の8~17%に潜伏障害がみられた。
論文 参考訳(メタデータ) (2026-03-31T12:26:35Z) - TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models [59.13964209628383]
VLA(Vision-Language-Action)ポリシーは、言語指示や視覚的な観察をロボット行動にマッピングする上で大きな進歩を見せている。
本稿では,VLA政策における乱れや外見に起因したバイアスを明示的に軽減する単純な推論時ガイダンス機構であるTAG(Target-Agnostic Guidance)を提案する。
我々は, LIBERO, LIBERO-Plus, VLABenchなどの標準操作ベンチマーク上でTAGを評価し, クラッタ下での堅牢性を一貫して改善し, ニアミスや不正なオブジェクト実行を減らす。
論文 参考訳(メタデータ) (2026-03-25T17:56:32Z) - Agentproof: Static Verification of Agent Workflow Graphs [0.0]
エージェントフレームワークは、ツール使用の振る舞いを明示的なワークフローグラフとしてエンコードする傾向にある。
本稿では,4つの主要なエージェントフレームワークから統合抽象グラフモデルを自動的に抽出するAgentproofを提案する。
汎用的なモデルチェッカーとは異なり、Agentproofは手動モデリングを必要としない。
論文 参考訳(メタデータ) (2026-03-20T13:56:20Z) - Agent Control Protocol: Admission Control for Agent Actions [0.4929694290403903]
エージェントコントロールプロトコル(エージェントコントロールプロトコル、ACP)は、B2Bの機関環境における自律エージェントの受け入れ制御ガバナンスのための正式な仕様である。
ACPは、暗号ID、能力に基づく認可、決定論的リスク評価、連鎖デリゲート、および暗号化連鎖監査を定義する。
ACPはRBACとZero Trustの上で動作し、どちらのモデルも解決しない問題に対処する。
論文 参考訳(メタデータ) (2026-03-19T12:28:28Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - CIMemories: A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs [62.116710797795314]
大規模言語モデル(LLM)は、パーソナライゼーションとタスクパフォーマンスを向上させるために、過去のインタラクションから永続的なメモリを使用することが多い。
タスクコンテキストに基づいて,LLMがメモリからの情報フローを適切に制御するかどうかを評価するベンチマークであるCIMemoriesを提案する。
論文 参考訳(メタデータ) (2025-11-18T21:51:23Z) - Policy-Aware Generative AI for Safe, Auditable Data Access Governance [0.0]
本稿では,大規模言語モデル(LLM)を用いて,原データではなく,記述されたポリシーやメタデータに対して自然言語要求を解釈するポリシー対応コントローラを提案する。
Google Gemini2.0 Flashで実装されたこのシステムは、6段階の推論フレームワークを実行する。
論文 参考訳(メタデータ) (2025-10-27T16:10:55Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。