論文の概要: Pro2Guard: Proactive Runtime Enforcement of LLM Agent Safety via Probabilistic Model Checking
- arxiv url: http://arxiv.org/abs/2508.00500v1
- Date: Fri, 01 Aug 2025 10:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.833547
- Title: Pro2Guard: Proactive Runtime Enforcement of LLM Agent Safety via Probabilistic Model Checking
- Title(参考訳): Pro2Guard: 確率的モデルチェックによるLLMエージェント安全性の積極的な実行時強化
- Authors: Haoyu Wang, Chris M. Poskitt, Jun Sun, Jiali Wei,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、ロボット工学、仮想アシスタント、Webオートメーションといった分野にまたがる強力な自律能力を示す。
AgentSpecのような既存のルールベースの執行システムは、リアクティブな安全ルールの開発に重点を置いている。
本稿では,確率的到達可能性解析に基づくプロアクティブ実行時実行フレームワークPro2Guardを提案する。
- 参考スコア(独自算出の注目度): 8.970702398918924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents exhibit powerful autonomous capabilities across domains such as robotics, virtual assistants, and web automation. However, their stochastic behavior introduces significant safety risks that are difficult to anticipate. Existing rule-based enforcement systems, such as AgentSpec, focus on developing reactive safety rules, which typically respond only when unsafe behavior is imminent or has already occurred. These systems lack foresight and struggle with long-horizon dependencies and distribution shifts. To address these limitations, we propose Pro2Guard, a proactive runtime enforcement framework grounded in probabilistic reachability analysis. Pro2Guard abstracts agent behaviors into symbolic states and learns a Discrete-Time Markov Chain (DTMC) from execution traces. At runtime, it anticipates future risks by estimating the probability of reaching unsafe states, triggering interventions before violations occur when the predicted risk exceeds a user-defined threshold. By incorporating semantic validity checks and leveraging PAC bounds, Pro2Guard ensures statistical reliability while approximating the underlying ground-truth model. We evaluate Pro2Guard extensively across two safety-critical domains: embodied household agents and autonomous vehicles. In embodied agent tasks, Pro2Guard enforces safety early on up to 93.6% of unsafe tasks using low thresholds, while configurable modes (e.g., reflect) allow balancing safety with task success, maintaining up to 80.4% task completion. In autonomous driving scenarios, Pro2Guard achieves 100% prediction of traffic law violations and collisions, anticipating risks up to 38.66 seconds ahead.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、ロボット工学、仮想アシスタント、Webオートメーションといった分野にまたがる強力な自律能力を示す。
しかし、その確率的な行動は、予測が難しい重大な安全リスクをもたらす。
AgentSpecのような既存のルールベースの執行システムは、安全でない動作が差し迫った場合やすでに発生した場合にのみ応答するリアクティブな安全ルールの開発に重点を置いている。
これらのシステムには、長期の依存関係と分散シフトに対する監視と苦労が欠如している。
これらの制約に対処するため,確率的到達可能性分析に基づくプロアクティブな実行時実行フレームワークであるPro2Guardを提案する。
Pro2Guardはエージェントの動作をシンボリックな状態に抽象化し、実行トレースから離散時間マルコフ連鎖(DTMC)を学ぶ。
実行時に、安全でない状態に達する確率を推定し、予測されたリスクがユーザ定義しきい値を超えた場合に違反が起こる前に介入をトリガーすることによって、将来のリスクを予測する。
意味的妥当性チェックとPACバウンダリの活用により、Pro2Guardは基盤となる基盤構造モデルを近似しながら統計的信頼性を保証する。
われわれは、Pro2Guardを2つの安全上重要な領域、例えばエンボディド・ホームエージェントと自動運転車で広範囲に評価する。
実施されたエージェントタスクでは、Pro2Guardは、低いしきい値を用いて、安全でないタスクの最大93.6%を早期に実施し、設定可能なモード(例えば、リフレクション)は、タスクの成功と安全性のバランスを許容し、最大80.4%のタスク完了を維持している。
自動運転のシナリオでは、Pro2Guardは交通法違反や衝突を100%予測し、最大38.66秒前にリスクを予測している。
関連論文リスト
- WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - SafePath: Conformal Prediction for Safe LLM-Based Autonomous Navigation [67.22657932549723]
SafePathは,LLM(Large Language Models)を公式な安全保証とともに拡張するフレームワークである。
第1段階では,多様な候補経路を生成するLCMを用いて,エージェントの挙動と環境条件に基づく軌道探索を行う。
第2段階では、SafePathはリスクの高いトラジェクトリをフィルタリングし、少なくとも1つのセーフオプションがユーザ定義の確率に含まれていることを保証します。
最終段階では,不確実性が低い場合や不確実性が高い場合,人間に制御を委譲する場合の衝突リスクが最も低い経路を選択する。
論文 参考訳(メタデータ) (2025-05-14T14:28:24Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents [8.290987399121343]
LLMエージェントのランタイム制約を指定・強制するための軽量言語であるAgentSpecを提案する。
AgentSpecでは、トリガー、述語、執行機構を含む構造化ルールを定義する。
コード実行、エンボディエージェント、自律運転など、複数のドメインにまたがるAgentSpecを実装しています。
論文 参考訳(メタデータ) (2025-03-24T13:31:48Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents [7.33319373357049]
本稿では,Deep Reinforcement Learning (DRL)エージェント用に特別に設計されたブラックボックス安全監視手法SMARLAを紹介する。
SMARLAは機械学習を利用して、実行中のエージェントの動作を観察し、安全違反を予測する。
実験の結果、SMARLAは偽陽性率の低い安全違反を予測するのに正確であり、違反が起こる前にエージェントの実行の途中で早期に違反を予測することができることが明らかになった。
論文 参考訳(メタデータ) (2023-08-03T21:08:51Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。