論文の概要: SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems
- arxiv url: http://arxiv.org/abs/2506.07564v3
- Date: Wed, 11 Jun 2025 03:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.726894
- Title: SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems
- Title(参考訳): SAFEFLOW: 信頼できるトランザクション自律エージェントシステムのための原則的プロトコル
- Authors: Peiran Li, Xinkai Zou, Zhuohang Wu, Ruifeng Li, Shuo Xing, Hanwen Zheng, Zhikai Hu, Yuping Wang, Haoxi Li, Qin Yuan, Yingmo Zhang, Zhengzhong Tu,
- Abstract要約: 大規模言語モデル(LLM)や視覚言語モデル(VLM)の最近の進歩は、複雑な推論とマルチモーダルツールの使用が可能な強力な自律エージェントを可能にしている。
能力の増大にもかかわらず、今日のエージェントフレームワークは脆弱であり、セキュアな情報フロー、信頼性、マルチエージェント調整のための原則的なメカニズムが欠如している。
SAFEFLOWは信頼性の高いLDM/VLMベースのエージェントを構築するための新しいプロトコルレベルフレームワークである。
- 参考スコア(独自算出の注目度): 10.393477652794747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) and vision-language models (VLMs) have enabled powerful autonomous agents capable of complex reasoning and multi-modal tool use. Despite their growing capabilities, today's agent frameworks remain fragile, lacking principled mechanisms for secure information flow, reliability, and multi-agent coordination. In this work, we introduce SAFEFLOW, a new protocol-level framework for building trustworthy LLM/VLM-based agents. SAFEFLOW enforces fine-grained information flow control (IFC), precisely tracking provenance, integrity, and confidentiality of all the data exchanged between agents, tools, users, and environments. By constraining LLM reasoning to respect these security labels, SAFEFLOW prevents untrusted or adversarial inputs from contaminating high-integrity decisions. To ensure robustness in concurrent multi-agent settings, SAFEFLOW introduces transactional execution, conflict resolution, and secure scheduling over shared state, preserving global consistency across agents. We further introduce mechanisms, including write-ahead logging, rollback, and secure caches, that further enhance resilience against runtime errors and policy violations. To validate the performances, we built SAFEFLOWBENCH, a comprehensive benchmark suite designed to evaluate agent reliability under adversarial, noisy, and concurrent operational conditions. Extensive experiments demonstrate that agents built with SAFEFLOW maintain impressive task performance and security guarantees even in hostile environments, substantially outperforming state-of-the-art. Together, SAFEFLOW and SAFEFLOWBENCH lay the groundwork for principled, robust, and secure agent ecosystems, advancing the frontier of reliable autonomy.
- Abstract(参考訳): 大規模言語モデル(LLM)や視覚言語モデル(VLM)の最近の進歩は、複雑な推論とマルチモーダルツールの使用が可能な強力な自律エージェントを可能にしている。
能力の増大にもかかわらず、今日のエージェントフレームワークは脆弱であり、セキュアな情報フロー、信頼性、マルチエージェント調整のための原則的なメカニズムが欠如している。
本研究では,信頼性の高いLLM/VLMエージェントを構築するための新しいプロトコルレベルフレームワークであるSAFEFLOWを紹介する。
SAFEFLOWは、エージェント、ツール、ユーザ、環境間で交換されたすべてのデータの出所、完全性、機密性を正確に追跡する、きめ細かい情報フロー制御(IFC)を強制する。
これらのセキュリティラベルを尊重するLLM推論を制約することにより、SAFEFLOWは信頼できない、あるいは敵対的な入力が高統合性決定を汚染することを防ぐ。
同時マルチエージェント設定で堅牢性を確保するため、SAFEFLOWはトランザクション実行、競合解決、共有状態に対するセキュアなスケジューリングを導入し、エージェント間のグローバルな一貫性を維持する。
さらに、書き込みアヘッドロギング、ロールバック、セキュアキャッシュなどのメカニズムを導入し、ランタイムエラーやポリシー違反に対するレジリエンスをさらに強化します。
SAFEFLOWBENCHは,逆数,雑音,同時動作条件下でのエージェントの信頼性を評価するための総合ベンチマークスイートである。
大規模な実験では、SAFEFLOWで構築されたエージェントが、敵対的な環境においても、優れたタスクパフォーマンスとセキュリティ保証を維持しており、その性能はかなり向上している。
SAFEFLOWとSAFEFLOWBENCHは共に、原理的で堅牢でセキュアなエージェントエコシステムの基礎を築き、信頼性の高い自律性のフロンティアを前進させた。
関連論文リスト
- LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - A Novel Zero-Trust Identity Framework for Agentic AI: Decentralized Authentication and Fine-Grained Access Control [7.228060525494563]
本稿では,Agentic AI IAMフレームワークの提案について述べる。
リッチで検証可能なエージェント識別子(ID)に基づく包括的フレームワークを提案する。
また、Zero-Knowledge Proofs(ZKPs)によって、プライバシ保護属性の開示と検証可能なポリシーコンプライアンスを実現する方法について検討する。
論文 参考訳(メタデータ) (2025-05-25T20:21:55Z) - AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - AgentGuard: Repurposing Agentic Orchestrator for Safety Evaluation of Tool Orchestration [0.3222802562733787]
AgentGuardは、安全でないツールの使用を自律的に発見し、検証するフレームワークである。
エージェントの動作を限定する安全制約を生成し、安全保証の基準を達成する。
フレームワークは、安全でないことを識別し、実際の実行でそれらを検証し、安全性の制約を生成し、制約の有効性を検証する。
論文 参考訳(メタデータ) (2025-02-13T23:00:33Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。