論文の概要: Prompt Injection Attacks on Agentic Coding Assistants: A Systematic Analysis of Vulnerabilities in Skills, Tools, and Protocol Ecosystems
- arxiv url: http://arxiv.org/abs/2601.17548v1
- Date: Sat, 24 Jan 2026 18:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.916831
- Title: Prompt Injection Attacks on Agentic Coding Assistants: A Systematic Analysis of Vulnerabilities in Skills, Tools, and Protocol Ecosystems
- Title(参考訳): エージェント・コーディング・アシスタントへのプロンプト・インジェクション・アタック:スキル・ツール・プロトコル・エコシステムにおける脆弱性の体系的分析
- Authors: Narek Maloyan, Dmitry Namiot,
- Abstract要約: 本稿では,エージェント・コーディング・アシスタントを対象としたインジェクション・アタックの包括的解析を行う。
メタアナリシスは78の最近の研究から得られた知見を合成する。
以上の結果から,セキュリティコミュニティはプロンプトインジェクションを第一級脆弱性クラスとして扱う必要があることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of agentic AI coding assistants, including Claude Code, GitHub Copilot, Cursor, and emerging skill-based architectures, has fundamentally transformed software development workflows. These systems leverage Large Language Models (LLMs) integrated with external tools, file systems, and shell access through protocols like the Model Context Protocol (MCP). However, this expanded capability surface introduces critical security vulnerabilities. In this \textbf{Systematization of Knowledge (SoK)} paper, we present a comprehensive analysis of prompt injection attacks targeting agentic coding assistants. We propose a novel three-dimensional taxonomy categorizing attacks across \textit{delivery vectors}, \textit{attack modalities}, and \textit{propagation behaviors}. Our meta-analysis synthesizes findings from 78 recent studies (2021--2026), consolidating evidence that attack success rates against state-of-the-art defenses exceed 85\% when adaptive attack strategies are employed. We systematically catalog 42 distinct attack techniques spanning input manipulation, tool poisoning, protocol exploitation, multimodal injection, and cross-origin context poisoning. Through critical analysis of 18 defense mechanisms reported in prior work, we identify that most achieve less than 50\% mitigation against sophisticated adaptive attacks. We contribute: (1) a unified taxonomy bridging disparate attack classifications, (2) the first systematic analysis of skill-based architecture vulnerabilities with concrete exploit chains, and (3) a defense-in-depth framework grounded in the limitations we identify. Our findings indicate that the security community must treat prompt injection as a first-class vulnerability class requiring architectural-level mitigations rather than ad-hoc filtering approaches.
- Abstract(参考訳): Claude Code、GitHub Copilot、Cursor、そして新しいスキルベースのアーキテクチャを含むエージェントAIコーディングアシスタントの普及は、ソフトウェア開発のワークフローを根本的に変えた。
これらのシステムは、外部ツールやファイルシステムと統合されたLarge Language Models (LLM) を利用し、Model Context Protocol (MCP) のようなプロトコルを通じてシェルアクセスを行う。
しかし、この拡張された機能表面は、重大なセキュリティ脆弱性をもたらす。
本稿では,エージェント・コーディング・アシスタントを対象とするインジェクション・アタックの包括的解析を行う。
本稿では,<textit{delivery vectors},<textit{attack modalities},<textit{propagation behaviors}にまたがる攻撃を分類する新しい3次元分類法を提案する。
メタアナリシスは,最新の78研究(2021-2026)を総合的に分析し,アダプティブアタック戦略を採用すると,最先端の防御に対する攻撃成功率が85%を超えることを示す。
入力操作,ツール中毒,プロトコルエクスプロイト,マルチモーダルインジェクション,クロスオリジンコンテキスト中毒にまたがる42の異なる攻撃手法を系統的に分類した。
先行研究で報告された18の防御機構の批判的分析により、ほとんどの場合、高度な適応攻撃に対して50 %未満の緩和を達成できることが判明した。
本研究は,(1)異種攻撃分類を橋渡しする統一分類,(2)具体的エクスプロイトチェーンを用いたスキルベースアーキテクチャの脆弱性の体系的解析,(3)特定する限界に根ざした防御の枠組み,の3つに貢献する。
この結果から,セキュリティコミュニティはアドホックなフィルタリング手法ではなく,アーキテクチャレベルの緩和を必要とする第1級脆弱性クラスとしてプロンプトインジェクションを扱わなければならないことが示唆された。
関連論文リスト
- Constructing Multi-label Hierarchical Classification Models for MITRE ATT&CK Text Tagging [0.0]
我々は、MITRE ATT&CKテキストタグタスクの「タスクスペース」の特徴付けを行う。
テキストタギングタスクのための多ラベル階層分類モデルを構築した。
私たちのモデルは、古典的な機械学習手法にのみ依存しながら、最先端のパフォーマンスを満たしたり、超えたりします。
論文 参考訳(メタデータ) (2026-01-21T00:41:34Z) - Analyzing Code Injection Attacks on LLM-based Multi-Agent Systems in Software Development [11.76638109321532]
本稿では,ソフトウェア工学プロセスの実装フェーズのためのマルチエージェントシステムのアーキテクチャを提案する。
このようなシステムは、非常に正確にコードを生成することができるが、コードインジェクションを含む攻撃に弱いことを実証する。
論文 参考訳(メタデータ) (2025-12-26T01:08:43Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - Systematic Analysis of MCP Security [13.801464032236481]
Model Context Protocol(MCP)は、AIエージェントが外部ツールとシームレスに接続できるようにする普遍的な標準として登場した。
MCPはツール・ポジティング・アタック(TPA)のような重大な脆弱性を導入している。
MCPアタックライブラリ (MCPLIB) は, 4つの主要な分類の下で31の異なる攻撃手法を分類・実装する。
論文 参考訳(メタデータ) (2025-08-18T00:23:41Z) - Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。
本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。
私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文 参考訳(メタデータ) (2025-07-08T18:24:28Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。