論文の概要: VeriGuard: Enhancing LLM Agent Safety via Verified Code Generation
- arxiv url: http://arxiv.org/abs/2510.05156v1
- Date: Fri, 03 Oct 2025 04:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.863964
- Title: VeriGuard: Enhancing LLM Agent Safety via Verified Code Generation
- Title(参考訳): VeriGuard: 検証コード生成によるLLMエージェントの安全性向上
- Authors: Lesly Miculicich, Mihir Parmar, Hamid Palangi, Krishnamurthy Dj Dvijotham, Mirko Montanari, Tomas Pfister, Long T. Le,
- Abstract要約: 医療などのセンシティブなドメインに自律的なAIエージェントを配置することは、安全性、セキュリティ、プライバシに重大なリスクをもたらす。
LLMをベースとしたエージェントに対して、正式な安全保証を提供する新しいフレームワークであるVeriGuardを紹介する。
- 参考スコア(独自算出の注目度): 40.594947933580464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of autonomous AI agents in sensitive domains, such as healthcare, introduces critical risks to safety, security, and privacy. These agents may deviate from user objectives, violate data handling policies, or be compromised by adversarial attacks. Mitigating these dangers necessitates a mechanism to formally guarantee that an agent's actions adhere to predefined safety constraints, a challenge that existing systems do not fully address. We introduce VeriGuard, a novel framework that provides formal safety guarantees for LLM-based agents through a dual-stage architecture designed for robust and verifiable correctness. The initial offline stage involves a comprehensive validation process. It begins by clarifying user intent to establish precise safety specifications. VeriGuard then synthesizes a behavioral policy and subjects it to both testing and formal verification to prove its compliance with these specifications. This iterative process refines the policy until it is deemed correct. Subsequently, the second stage provides online action monitoring, where VeriGuard operates as a runtime monitor to validate each proposed agent action against the pre-verified policy before execution. This separation of the exhaustive offline validation from the lightweight online monitoring allows formal guarantees to be practically applied, providing a robust safeguard that substantially improves the trustworthiness of LLM agents.
- Abstract(参考訳): 医療などのセンシティブなドメインに自律的なAIエージェントを配置することは、安全性、セキュリティ、プライバシに重大なリスクをもたらす。
これらのエージェントは、ユーザー目標から逸脱したり、データハンドリングポリシーに違反したり、敵の攻撃によって妥協されることがある。
これらの危険を緩和するには、エージェントのアクションが事前に定義された安全上の制約に従うことを正式に保証する必要がある。
We introduced VeriGuard, a novel framework that provides formal safety guarantees for LLM-based agent through a dual-stage architecture designed for robust and verible correctness。
最初のオフラインステージには、包括的な検証プロセスが含まれる。
まず、正確な安全仕様を確立するためのユーザの意図を明確にすることから始まります。
その後、VeriGuardは行動ポリシーを合成し、これらの仕様に準拠することを証明するために、テストと正式な検証の両方を施す。
この反復的なプロセスは、それが正しいと判断されるまでポリシーを洗練します。
その後、第2ステージはオンラインアクション監視を提供し、VeriGuardは実行前に事前に検証されたポリシーに対して提案された各エージェントアクションを検証するランタイムモニターとして動作する。
このオフライン検証を軽量なオンライン監視から切り離すことにより、正式な保証を実際に適用することが可能となり、LDMエージェントの信頼性を大幅に向上する堅牢なセーフガードが提供される。
関連論文リスト
- PSG-Agent: Personality-Aware Safety Guardrail for LLM-based Agents [60.23552141928126]
PSG-AgentはLLMベースのエージェントのためのパーソナライズされた動的システムである。
まずPSG-Agentは、安定した特性のために相互作用履歴をマイニングすることでパーソナライズされたガードレールを作成する。
第二に、PSG-Agentは特別なガードでエージェントパイプラインを横断する継続的監視を実装している。
論文 参考訳(メタデータ) (2025-09-28T03:31:59Z) - BlockA2A: Towards Secure and Verifiable Agent-to-Agent Interoperability [8.539128225018489]
BlockA2Aはエージェントとエージェントの相互運用性のための統合されたマルチエージェント信頼フレームワークである。
集中的な信頼ボトルネックを排除し、メッセージの信頼性と実行の整合性を確保し、エージェント間のインタラクションにおける説明責任を保証する。
ビザンチンエージェントのフラグング、リアクティブ実行停止、即時許可取り消しなど、リアルタイムメカニズムによる攻撃を中和する。
論文 参考訳(メタデータ) (2025-08-02T11:59:21Z) - Provably Secure Retrieval-Augmented Generation [7.412110686946628]
本稿では,RAG(Retrieval-Augmented Generation)システムのための,信頼性の高い最初のフレームワークを提案する。
我々のフレームワークは、検索したコンテンツとベクトル埋め込みの両方の二重保護を保証するために、プレストレージのフル暗号化方式を採用している。
論文 参考訳(メタデータ) (2025-08-01T21:37:16Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。