論文の概要: The Dark Side of LLMs Agent-based Attacks for Complete Computer Takeover
- arxiv url: http://arxiv.org/abs/2507.06850v1
- Date: Wed, 09 Jul 2025 13:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.604763
- Title: The Dark Side of LLMs Agent-based Attacks for Complete Computer Takeover
- Title(参考訳): LLMエージェントによる完全コンピュータ乗っ取り攻撃のダークサイド
- Authors: Matteo Lupinacci, Francesco Aurelio Pironti, Francesco Blefari, Francesco Romeo, Luigi Arena, Angelo Furfaro,
- Abstract要約: 本稿では,Large Language Model (LLM) エージェントを攻撃ベクトルとして包括的に評価する。
敵は3つの異なる攻撃面(ダイレクト・プロンプト・インジェクション、RAGバックドア・アタック、エージェント間信頼利用)を利用できることを示す。
その結果,全攻撃ベクトルに対する耐性は5.9%に過ぎなかった。
- 参考スコア(独自算出の注目度): 0.18472148461613155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid adoption of Large Language Model (LLM) agents and multi-agent systems enables unprecedented capabilities in natural language processing and generation. However, these systems have introduced unprecedented security vulnerabilities that extend beyond traditional prompt injection attacks. This paper presents the first comprehensive evaluation of LLM agents as attack vectors capable of achieving complete computer takeover through the exploitation of trust boundaries within agentic AI systems where autonomous entities interact and influence each other. We demonstrate that adversaries can leverage three distinct attack surfaces - direct prompt injection, RAG backdoor attacks, and inter-agent trust exploitation - to coerce popular LLMs (including GPT-4o, Claude-4 and Gemini-2.5) into autonomously installing and executing malware on victim machines. Our evaluation of 17 state-of-the-art LLMs reveals an alarming vulnerability hierarchy: while 41.2% of models succumb to direct prompt injection, 52.9% are vulnerable to RAG backdoor attacks, and a critical 82.4% can be compromised through inter-agent trust exploitation. Notably, we discovered that LLMs which successfully resist direct malicious commands will execute identical payloads when requested by peer agents, revealing a fundamental flaw in current multi-agent security models. Our findings demonstrate that only 5.9% of tested models (1/17) proved resistant to all attack vectors, with the majority exhibiting context-dependent security behaviors that create exploitable blind spots. Our findings also highlight the need to increase awareness and research on the security risks of LLMs, showing a paradigm shift in cybersecurity threats, where AI tools themselves become sophisticated attack vectors.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントとマルチエージェントシステムの急速な採用は、自然言語処理と生成において前例のない機能を実現する。
しかし、これらのシステムは従来のプロンプトインジェクション攻撃を超えて、前例のないセキュリティ脆弱性を導入している。
本稿では、自律的実体が相互に相互作用し影響を及ぼすエージェントAIシステム内の信頼境界の活用を通じて、完全なコンピュータの乗っ取りを達成できる攻撃ベクトルとしてLLMエージェントを包括的に評価する。
敵は3つの異なる攻撃面(ダイレクト・プロンプト・インジェクション、RAGバックドア・アタック、エージェント間信頼利用)を利用して、人気のあるLSM(GPT-4o、Claude-4、Gemini-2.5)を自動インストールし、被害者マシン上で実行することができることを示した。
41.2%のモデルが直接的インジェクションを誘導する傾向にあるのに対し、52.9%はRAGバックドア攻撃に対して脆弱であり、82.4%はエージェント間信頼の搾取によって損なわれる可能性がある。
特に、直接悪意のあるコマンドに抵抗するLLMがピアエージェントから要求された場合、同一のペイロードを実行することが判明し、現在のマルチエージェントセキュリティモデルに根本的な欠陥が明らかとなった。
調査の結果,攻撃ベクトルに対する耐性は,テスト対象モデルの5.9% (1/17) に過ぎなかった。
我々の発見はまた、LLMのセキュリティリスクに対する認識と研究の向上の必要性を強調しており、AIツール自体が高度な攻撃ベクトルとなるサイバーセキュリティ脅威のパラダイムシフトを示している。
関連論文リスト
- From Assistants to Adversaries: Exploring the Security Risks of Mobile LLM Agents [17.62574693254363]
モバイル大言語モデル(LLM)の総合的セキュリティ解析について紹介する。
言語ベースの推論,GUIベースのインタラクション,システムレベルの実行という,3つのコア機能領域にわたるセキュリティ上の脅威を特定します。
分析の結果,11個の異なる攻撃面が明らかとなり,それぞれが移動型LDMエージェントのユニークな機能と相互作用パターンに根ざしていることがわかった。
論文 参考訳(メタデータ) (2025-05-19T11:17:46Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。