論文の概要: Proof-of-Guardrail in AI Agents and What (Not) to Trust from It
- arxiv url: http://arxiv.org/abs/2603.05786v1
- Date: Fri, 06 Mar 2026 00:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.790985
- Title: Proof-of-Guardrail in AI Agents and What (Not) to Trust from It
- Title(参考訳): AIエージェントのガードレールの証明とそれからの信頼
- Authors: Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren,
- Abstract要約: 開発者が特定のオープンソースガードレールの後に応答が生成されることの暗号的証明を行えるようにするシステムである「ガードレールの証明」を提案する。
我々は,OpenClawエージェントのガードレールを実装し,遅延オーバーヘッドとデプロイメントコストを評価する。
- 参考スコア(独自算出の注目度): 26.03695321395865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI agents become widely deployed as online services, users often rely on an agent developer's claim about how safety is enforced, which introduces a threat where safety measures are falsely advertised. To address the threat, we propose proof-of-guardrail, a system that enables developers to provide cryptographic proof that a response is generated after a specific open-source guardrail. To generate proof, the developer runs the agent and guardrail inside a Trusted Execution Environment (TEE), which produces a TEE-signed attestation of guardrail code execution verifiable by any user offline. We implement proof-of-guardrail for OpenClaw agents and evaluate latency overhead and deployment cost. Proof-of-guardrail ensures integrity of guardrail execution while keeping the developer's agent private, but we also highlight a risk of deception about safety, for example, when malicious developers actively jailbreak the guardrail. Code and demo video: https://github.com/SaharaLabsAI/Verifiable-ClawGuard
- Abstract(参考訳): AIエージェントがオンラインサービスとして広くデプロイされるようになると、ユーザはしばしば、安全がいかに強制されているかというエージェント開発者の主張に依存します。
この脅威に対処するため,開発者が特定のオープンソースガードレールの後に応答が生成されることの暗号的証明を行うことのできる,ガードレールの証明システムを提案する。
証明を生成するため、開発者はTrusted Execution Environment (TEE)内でエージェントとガードレールを実行する。
我々は,OpenClawエージェントのガードレールを実装し,遅延オーバヘッドとデプロイメントコストを評価する。
Proof-of-guardrailは、ディベロッパのエージェントをプライベートに保ちながらガードレールの実行の完全性を保証するが、悪意のある開発者がガードレールを積極的にジェイルブレイクする場合など、安全を欺くリスクも強調する。
コードとデモビデオ:https://github.com/SaharaLabsAI/Verifiable-ClawGuard
関連論文リスト
- OpenGuardrails: A Configurable, Unified, and Scalable Guardrails Platform for Large Language Models [3.3252656373741547]
OpenGuardrailsは、大規模なモデルベースの安全性検出、操作防御、デプロイ可能なガードレールインフラストラクチャを統合する、最初の完全なオープンソースプラットフォームです。
OpenGuardrailsは,(1)有害なテキスト生成や明示的なテキスト生成などのコンテンツ安全違反,(2)迅速なインジェクション,ジェイルブレイク,コード・インタプリタの乱用を含むモデル操作攻撃,(3)機密情報や個人情報を含むデータ漏洩,という3つの主要なリスクに対して保護されている。
論文 参考訳(メタデータ) (2025-10-22T02:02:27Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - PSG-Agent: Personality-Aware Safety Guardrail for LLM-based Agents [60.23552141928126]
PSG-AgentはLLMベースのエージェントのためのパーソナライズされた動的システムである。
まずPSG-Agentは、安定した特性のために相互作用履歴をマイニングすることでパーソナライズされたガードレールを作成する。
第二に、PSG-Agentは特別なガードでエージェントパイプラインを横断する継続的監視を実装している。
論文 参考訳(メタデータ) (2025-09-28T03:31:59Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。