論文の概要: Shadows in the Code: Exploring the Risks and Defenses of LLM-based Multi-Agent Software Development Systems
- arxiv url: http://arxiv.org/abs/2511.18467v1
- Date: Sun, 23 Nov 2025 14:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.85341
- Title: Shadows in the Code: Exploring the Risks and Defenses of LLM-based Multi-Agent Software Development Systems
- Title(参考訳): コードの影 - LLMベースのマルチエージェントソフトウェア開発システムのリスクと防御を探る
- Authors: Xiaoqing Wang, Keman Huang, Bin Liang, Hongyu Li, Xiaoyong Du,
- Abstract要約: リスクのある2つのシナリオを識別する: 悪質なエージェントを持つ悪意のあるユーザ(MU-BA)と悪質なエージェントを持つ良質なユーザ(BU-MA)。
Indicit Malicious Behavior Injection Attack (IMBIA)を導入し、マルチエージェントシステムをどのように操作して悪質な機能を隠蔽したソフトウェアを生成するかを示す。
本研究は,マルチエージェントソフトウェア開発システムにおける堅牢なセキュリティ対策の急激なニーズを浮き彫りにするものである。
- 参考スコア(独自算出の注目度): 15.276177828252829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Language Model (LLM)-driven multi-agent systems has significantly streamlined software developing tasks, enabling users with little technical expertise to develop executable applications. While these systems democratize software creation through natural language requirements, they introduce significant security risks that remain largely unexplored. We identify two risky scenarios: Malicious User with Benign Agents (MU-BA) and Benign User with Malicious Agents (BU-MA). We introduce the Implicit Malicious Behavior Injection Attack (IMBIA), demonstrating how multi-agent systems can be manipulated to generate software with concealed malicious capabilities beneath seemingly benign applications, and propose Adv-IMBIA as a defense mechanism. Evaluations across ChatDev, MetaGPT, and AgentVerse frameworks reveal varying vulnerability patterns, with IMBIA achieving attack success rates of 93%, 45%, and 71% in MU-BA scenarios, and 71%, 84%, and 45% in BU-MA scenarios. Our defense mechanism reduced attack success rates significantly, particularly in the MU-BA scenario. Further analysis reveals that compromised agents in the coding and testing phases pose significantly greater security risks, while also identifying critical agents that require protection against malicious user exploitation. Our findings highlight the urgent need for robust security measures in multi-agent software development systems and provide practical guidelines for implementing targeted, resource-efficient defensive strategies.
- Abstract(参考訳): LLM(Large Language Model)によるマルチエージェントシステムの急速な進歩により、ソフトウェア開発タスクは大幅に合理化され、技術的専門知識の少ないユーザが実行可能なアプリケーションを開発することができるようになった。
これらのシステムは自然言語の要求によってソフトウェア作成を民主化するが、ほとんど探索されていない重大なセキュリティリスクを導入する。
そこで我々は,悪質なエージェントを用いた悪意のあるユーザ (MU-BA) と,悪質なエージェントによる良質なユーザ (BU-MA) の2つのリスクシナリオを特定した。
Indicit Malicious Behavior Injection Attack (IMBIA) を導入し, 悪質なアプリケーションを隠蔽したソフトウェアを生成するためにマルチエージェントシステムをどのように操作できるかを実証し, 防御機構としてAdv-IMBIAを提案する。
ChatDev、MetaGPT、AgenVerseフレームワークによる評価では、MBIAがMU-BAシナリオで93%、45%、71%、84%、BU-MAシナリオで45%という、さまざまな脆弱性パターンが示されている。
我々の防衛機構は、特にMU-BAシナリオにおいて、攻撃成功率を著しく低下させました。
さらなる分析によると、コーディングおよびテストフェーズにおける侵入されたエージェントは、重大なセキュリティリスクを伴い、悪意のあるユーザエクスプロイトに対する保護を必要とする重要なエージェントを識別する。
本研究は,マルチエージェントソフトウェア開発システムにおける堅牢なセキュリティ対策の必要性を強調し,目標とする資源効率の防御戦略を実現するための実践的ガイドラインを提供する。
関連論文リスト
- OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。