論文の概要: AgentSafe: Safeguarding Large Language Model-based Multi-agent Systems via Hierarchical Data Management
- arxiv url: http://arxiv.org/abs/2503.04392v1
- Date: Thu, 06 Mar 2025 12:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 17:59:00.831508
- Title: AgentSafe: Safeguarding Large Language Model-based Multi-agent Systems via Hierarchical Data Management
- Title(参考訳): AgentSafe:階層データ管理による大規模言語モデルベースのマルチエージェントシステムの保護
- Authors: Junyuan Mao, Fanci Meng, Yifan Duan, Miao Yu, Xiaojun Jia, Junfeng Fang, Yuxuan Liang, Kun Wang, Qingsong Wen,
- Abstract要約: 大規模言語モデルに基づくマルチエージェントシステムは、自律的なコミュニケーションとコラボレーションに革命をもたらしている。
本稿では,階層的な情報管理とメモリ保護を通じてMASセキュリティを強化する新しいフレームワークであるAgentSafeを紹介する。
AgentSafeには2つのコンポーネントが含まれている: ThreatSieveは情報権限の検証と不正行為の防止によって通信を保護する。
- 参考スコア(独自算出の注目度): 28.14286256061824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model based multi-agent systems are revolutionizing autonomous communication and collaboration, yet they remain vulnerable to security threats like unauthorized access and data breaches. To address this, we introduce AgentSafe, a novel framework that enhances MAS security through hierarchical information management and memory protection. AgentSafe classifies information by security levels, restricting sensitive data access to authorized agents. AgentSafe incorporates two components: ThreatSieve, which secures communication by verifying information authority and preventing impersonation, and HierarCache, an adaptive memory management system that defends against unauthorized access and malicious poisoning, representing the first systematic defense for agent memory. Experiments across various LLMs show that AgentSafe significantly boosts system resilience, achieving defense success rates above 80% under adversarial conditions. Additionally, AgentSafe demonstrates scalability, maintaining robust performance as agent numbers and information complexity grow. Results underscore effectiveness of AgentSafe in securing MAS and its potential for real-world application.
- Abstract(参考訳): 大規模言語モデルに基づくマルチエージェントシステムは、自律的なコミュニケーションとコラボレーションに革命をもたらしている。
そこで我々は,階層的な情報管理とメモリ保護を通じてMASセキュリティを強化する新しいフレームワークであるAgentSafeを紹介する。
AgentSafeはセキュリティレベルによって情報を分類し、認証されたエージェントへの機密データアクセスを制限する。
AgentSafeには2つのコンポーネントが含まれている: ThreatSieveは情報権限の検証と不正行為の防止によって通信を保護する。
様々なLSM実験により、AgentSafeはシステムレジリエンスを著しく向上させ、敵の条件下での防御成功率を80%以上達成していることが示された。
さらに、AgentSafeはスケーラビリティを示し、エージェント番号と情報複雑性が増大するにつれて、堅牢なパフォーマンスを維持する。
MASの確保におけるAgentSafeの有効性と実世界の応用の可能性について検討した。
関連論文リスト
- SAGA: A Security Architecture for Governing AI Agentic Systems [13.106925341037046]
大規模言語モデル(LLM)ベースのエージェントは、最小限の人間インタラクションでタスクを自律的に相互に対話し、協力し、委譲する傾向にある。
エージェントシステムガバナンスの業界ガイドラインは、ユーザがエージェントの包括的な制御を維持する必要性を強調している。
我々はエージェントシステムのセキュリティアーキテクチャであるSAGAを提案し,エージェントのライフサイクルをユーザから監視する。
論文 参考訳(メタデータ) (2025-04-27T23:10:00Z) - DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。
プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。
モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文 参考訳(メタデータ) (2025-04-18T20:36:10Z) - Get the Agents Drunk: Memory Perturbations in Autonomous Agent-based Recommender Systems [29.35591074298123]
大規模言語モデルベースのエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(Agent4RS)でますます使われている。
私たちの知る限りでは、Agent4RSがいかに堅牢かは未解明のままです。
本稿では,エージェントの記憶を乱すことによってエージェント4RSを攻撃するための最初の取り組みを提案する。
論文 参考訳(メタデータ) (2025-03-31T07:35:40Z) - ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning [7.481324060587101]
ShieldAgentは、他の保護されたエージェントの行動軌跡に対する明確な安全政策コンプライアンスを実施するために設計されたガードレールエージェントである。
保護剤の作用軌跡を考慮し、ShieldAgentは関連するルール回路を取得し、シールド計画を生成する。
ShieldAgentはAPIクエリを64.7%削減し、推論時間を58.2%削減した。
論文 参考訳(メタデータ) (2025-03-26T17:58:40Z) - Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Models (LLMs) を中心とした保護システムレイヤを作成する堅牢な防御機能である。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
最近のエージェントセキュリティベンチマークであるAgentDojo[NeurIPS 2024]で、証明可能なセキュリティを備えた67%のタスクを解決し、CaMeLの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-24T15:54:10Z) - Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems [1.2564343689544843]
我々は、セキュリティリスクとトレードオフを研究するために、共有目的に基づいて協力するAIエージェントのシミュレーションを開発する。
我々は、悪意のある指示の多重ホップ拡散という、感染した悪意のあるプロンプトを観察する。
この結果から,マルチエージェントシステムにおけるセキュリティと協調効率のトレードオフの可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-26T14:00:35Z) - The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents [6.829628038851487]
大きな言語モデル(LLM)エージェントは、ツール統合を通じて複雑な現実世界のタスクを実行できる対話アシスタントとして、ますます多くデプロイされている。
特に間接的なプロンプトインジェクション攻撃は、外部データソースに埋め込まれた悪意のある命令が、エージェントを操作してユーザの意図を逸脱させる、重大な脅威となる。
我々は,エージェントのセキュリティが有害な行為を防止し,タスクアライメントを確保するためには,すべてのエージェントアクションをユーザ目的に役立てる必要がある,という新たな視点を提案する。
論文 参考訳(メタデータ) (2024-12-21T16:17:48Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [42.69984822098671]
LLMエージェントの安全性を考慮したタスク計画のための新しいベンチマークであるSafeAgentBenchを提案する。
SafeAgentBenchは、(1)10の潜在的なハザードと3つのタスクタイプをカバーする750のタスクを持つ新しいデータセット、(2)SafeAgentEnv、低レベルコントローラを備えた普遍的な実施環境、8つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートする、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - Security Threats in Agentic AI System [0.0]
AIシステムの複雑さと、大量のデータを処理して分析する能力が組み合わさって、データ漏洩や漏洩の可能性が高まる。
AIエージェントがより自律的に進化するにつれて、セキュリティ対策を回避または活用する能力が懸念される。
論文 参考訳(メタデータ) (2024-10-16T06:40:02Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。
本稿では, 種々のシステム構造の耐震性について考察する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Security Matrix for Multimodal Agents on Mobile Devices: A Systematic and Proof of Concept Study [16.559272781032632]
マルチモーダル大規模言語モデルの推論能力の急速な進歩は、モバイルデバイス上での自律エージェントシステムの開発をきっかけにしている。
ヒトと機械の相互作用効率が向上したにもかかわらず、MLLMベースの移動エージェントシステムのセキュリティリスクは体系的に研究されていない。
本稿では,MLLMシステムの設計におけるセキュリティ意識の必要性を強調し,今後の攻撃・防御手法の研究の道を開く。
論文 参考訳(メタデータ) (2024-07-12T14:30:05Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは,98%,83%以上のガードレールアキュラシーを有する2つのベンチマークにおいて,異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。