論文の概要: AgentSafe: Safeguarding Large Language Model-based Multi-agent Systems via Hierarchical Data Management
- arxiv url: http://arxiv.org/abs/2503.04392v1
- Date: Thu, 06 Mar 2025 12:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:55.915188
- Title: AgentSafe: Safeguarding Large Language Model-based Multi-agent Systems via Hierarchical Data Management
- Title(参考訳): AgentSafe:階層データ管理による大規模言語モデルベースのマルチエージェントシステムの保護
- Authors: Junyuan Mao, Fanci Meng, Yifan Duan, Miao Yu, Xiaojun Jia, Junfeng Fang, Yuxuan Liang, Kun Wang, Qingsong Wen,
- Abstract要約: 大規模言語モデルに基づくマルチエージェントシステムは、自律的なコミュニケーションとコラボレーションに革命をもたらしている。
本稿では,階層的な情報管理とメモリ保護を通じてMASセキュリティを強化する新しいフレームワークであるAgentSafeを紹介する。
AgentSafeには2つのコンポーネントが含まれている: ThreatSieveは情報権限の検証と不正行為の防止によって通信を保護する。
- 参考スコア(独自算出の注目度): 28.14286256061824
- License:
- Abstract: Large Language Model based multi-agent systems are revolutionizing autonomous communication and collaboration, yet they remain vulnerable to security threats like unauthorized access and data breaches. To address this, we introduce AgentSafe, a novel framework that enhances MAS security through hierarchical information management and memory protection. AgentSafe classifies information by security levels, restricting sensitive data access to authorized agents. AgentSafe incorporates two components: ThreatSieve, which secures communication by verifying information authority and preventing impersonation, and HierarCache, an adaptive memory management system that defends against unauthorized access and malicious poisoning, representing the first systematic defense for agent memory. Experiments across various LLMs show that AgentSafe significantly boosts system resilience, achieving defense success rates above 80% under adversarial conditions. Additionally, AgentSafe demonstrates scalability, maintaining robust performance as agent numbers and information complexity grow. Results underscore effectiveness of AgentSafe in securing MAS and its potential for real-world application.
- Abstract(参考訳): 大規模言語モデルに基づくマルチエージェントシステムは、自律的なコミュニケーションとコラボレーションに革命をもたらしている。
そこで我々は,階層的な情報管理とメモリ保護を通じてMASセキュリティを強化する新しいフレームワークであるAgentSafeを紹介する。
AgentSafeはセキュリティレベルによって情報を分類し、認証されたエージェントへの機密データアクセスを制限する。
AgentSafeには2つのコンポーネントが含まれている: ThreatSieveは情報権限の検証と不正行為の防止によって通信を保護する。
様々なLSM実験により、AgentSafeはシステムレジリエンスを著しく向上させ、敵の条件下での防御成功率を80%以上達成していることが示された。
さらに、AgentSafeはスケーラビリティを示し、エージェント番号と情報複雑性が増大するにつれて、堅牢なパフォーマンスを維持する。
MASの確保におけるAgentSafeの有効性と実世界の応用の可能性について検討した。
関連論文リスト
- Red-Teaming LLM Multi-Agent Systems via Communication Attacks [10.872328358364776]
大規模言語モデルに基づくマルチエージェントシステム(LLM-MAS)は、メッセージベースのコミュニケーションを通じて高度なエージェント協調を可能にすることで、複雑な問題解決能力に革命をもたらした。
エージェント・イン・ザ・ミドル(AiTM, Agent-in-the-Middle)は、エージェント間メッセージのインターセプトと操作によってLLM-MASの基本的な通信機構を利用する新たな攻撃法である。
論文 参考訳(メタデータ) (2025-02-20T18:55:39Z) - AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents [6.829628038851487]
大きな言語モデル(LLM)エージェントは、ツール統合を通じて複雑な現実世界のタスクを実行できる対話アシスタントとして、ますます多くデプロイされている。
特に間接的なプロンプトインジェクション攻撃は、外部データソースに埋め込まれた悪意のある命令が、エージェントを操作してユーザの意図を逸脱させる、重大な脅威となる。
我々は,エージェントのセキュリティが有害な行為を防止し,タスクアライメントを確保するためには,すべてのエージェントアクションをユーザ目的に役立てる必要がある,という新たな視点を提案する。
論文 参考訳(メタデータ) (2024-12-21T16:17:48Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Security Threats in Agentic AI System [0.0]
AIシステムの複雑さと、大量のデータを処理して分析する能力が組み合わさって、データ漏洩や漏洩の可能性が高まる。
AIエージェントがより自律的に進化するにつれて、セキュリティ対策を回避または活用する能力が懸念される。
論文 参考訳(メタデータ) (2024-10-16T06:40:02Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Security Matrix for Multimodal Agents on Mobile Devices: A Systematic and Proof of Concept Study [16.559272781032632]
マルチモーダル大規模言語モデルの推論能力の急速な進歩は、モバイルデバイス上での自律エージェントシステムの開発をきっかけにしている。
ヒトと機械の相互作用効率が向上したにもかかわらず、MLLMベースの移動エージェントシステムのセキュリティリスクは体系的に研究されていない。
本稿では,MLLMシステムの設計におけるセキュリティ意識の必要性を強調し,今後の攻撃・防御手法の研究の道を開く。
論文 参考訳(メタデータ) (2024-07-12T14:30:05Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - Air Gap: Protecting Privacy-Conscious Conversational Agents [44.04662124191715]
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
本研究では,特定のタスクに必要なデータのみへのアクセスを制限することで,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
論文 参考訳(メタデータ) (2024-05-08T16:12:45Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。