論文の概要: Near-Miss: Latent Policy Failure Detection in Agentic Workflows
- arxiv url: http://arxiv.org/abs/2603.29665v1
- Date: Tue, 31 Mar 2026 12:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.642905
- Title: Near-Miss: Latent Policy Failure Detection in Agentic Workflows
- Title(参考訳): Near-Miss:エージェントワークフローにおける遅延ポリシーエラー検出
- Authors: Ella Rabinovich, David Boaz, Naama Zwerdling, Ateret Anaby-Tavor,
- Abstract要約: エージェントの会話トレースにおける遅延ポリシー障害を検出するための新しい指標を提案する。
その結果,ツールコールの変異を伴う軌道の8~17%に潜伏障害がみられた。
- 参考スコア(独自算出の注目度): 9.719140082591956
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Agentic systems for business process automation often require compliance with policies governing conditional updates to the system state. Evaluation of policy adherence in LLM-based agentic workflows is typically performed by comparing the final system state against a predefined ground truth. While this approach detects explicit policy violations, it may overlook a more subtle class of issues in which agents bypass required policy checks, yet reach a correct outcome due to favorable circumstances. We refer to such cases as $\textit{near-misses}$ or $\textit{latent failures}$. In this work, we introduce a novel metric for detecting latent policy failures in agent conversations traces. Building on the ToolGuard framework, which converts natural-language policies into executable guard code, our method analyzes agent trajectories to determine whether agent's tool-calling decisions where sufficiently informed. We evaluate our approach on the $τ^2$-verified Airlines benchmark across several contemporary open and proprietary LLMs acting as agents. Our results show that latent failures occur in 8-17% of trajectories involving mutating tool calls, even when the final outcome matches the expected ground-truth state. These findings reveal a blind spot in current evaluation methodologies and highlight the need for metrics that assess not only final outcomes but also the decision process leading to them.
- Abstract(参考訳): ビジネスプロセス自動化のためのエージェントシステムは、しばしばシステム状態の条件付き更新を管理するポリシーに準拠する必要がある。
LLMに基づくエージェントワークフローにおけるポリシー適合性の評価は、一般に、最終システム状態と予め定義された基底真理を比較することによって行われる。
このアプローチは明確な政策違反を検出するが、エージェントが必要な政策チェックをバイパスするより微妙な問題を見落とし、適切な状況のために正しい結果に達するかもしれない。
例えば、$\textit{near-misses}$や$\textit{latent failures}$などです。
本研究では,エージェントの会話トレースにおける潜伏政策失敗を検出するための新しい指標を提案する。
自然言語ポリシーを実行可能なガードコードに変換するToolGuardフレームワーク上に構築し、エージェントトラジェクトリを分析し、エージェントのツールコール決定が十分な情報を得たかどうかを判断する。
我々は,現代のオープンかつプロプライエタリなLLMがエージェントとして機能する,$τ^2$-verified Airlinesベンチマークに対するアプローチを評価した。
以上の結果から,最終結果が期待される地道状態と一致しても,ツールコールの変異を伴う軌道の8~17%に潜伏障害が発生することが示唆された。
これらの結果は、現在の評価手法の盲点を明らかにし、最終結果だけでなく、それにつながる意思決定プロセスを評価する指標の必要性を強調している。
関連論文リスト
- Runtime Governance for AI Agents: Policies on Paths [4.111929395230638]
我々は、実行パスが効率的なランタイムガバナンスの中心的なオブジェクトであると主張している。
私たちの見解では、実行時評価は一般的なケースであり、パスに依存したポリシーには必要です。
論文 参考訳(メタデータ) (2026-03-17T14:35:52Z) - When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering [10.01278648231868]
ポリシーステアリングは、デプロイ時にロボットの振る舞いを適用する新しい方法です。
VLM(Vision-Language Models)は、それらの推論能力のために、汎用的な検証を約束する。
セマンティックタスクの不確実性と低レベルのアクション実現可能性について共同で理由づけるフレームワークである不確実性対応型ポリシーステアリング(UPS)を提案する。
論文 参考訳(メタデータ) (2026-02-25T23:23:22Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Training-Free Policy Violation Detection via Activation-Space Whitening in LLMs [21.5603664964501]
本稿では,政策違反検出をアウト・オブ・ディストリビューション検出問題として扱う,トレーニングフリーで効率的な手法を提案する。
ホワイトニング技術にインスパイアされた線形変換を用いて、モデルの隠れたアクティベーションをデコレーションし、平均と単位の分散をゼロに標準化する。
挑戦的な政策ベンチマークでは、既存のガードレールと微調整された推論モデルの両方を超越して、最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-12-03T17:23:39Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning? [22.863241480702012]
Deep Reinforcement Learning (DRL)を通じて学んだ政策は、敵国の摂動攻撃に影響を受けやすい。
本稿では,国家逆境マルコフゲーム (SAMG) を提案するとともに,MARL の異なる解概念を状態不確実性の下で研究する試みを行う。
論文 参考訳(メタデータ) (2022-12-06T01:57:33Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。