論文の概要: Demystifying and Detecting Agentic Workflow Injection Vulnerabilities in GitHub Actions
- arxiv url: http://arxiv.org/abs/2605.07135v1
- Date: Fri, 08 May 2026 02:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.741098
- Title: Demystifying and Detecting Agentic Workflow Injection Vulnerabilities in GitHub Actions
- Title(参考訳): GitHubアクションにおけるエージェントワークフローインジェクション脆弱性の最小化と検出
- Authors: Shenao Wang, Xinyi Hou, Zhao Liu, Yanjie Zhao, Xiao Cheng, Quanchen Zou, Xiangzheng Zhang, Haoyu Wang,
- Abstract要約: GitHub Actionsは、リポジトリ中心のタスクのためのLLMベースのエージェントのデプロイにますます使用されている。
本稿では,ワークフローレベルのインジェクション欠陥であるエージェントインジェクション(AWI)を紹介する。
我々は、実世界のAI支援行動1,033を特徴付け、AWI固有の仕様を抽出する。
これらの仕様に基づいて、信頼できないイベントコンテキストからエージェントプロンプトインプットへのフローを追跡する、テイント分析ツールであるTaintAWIを設計する。
- 参考スコア(独自算出の注目度): 13.116427545802571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GitHub Actions is increasingly used to deploy LLM-based agents for repository-centric tasks such as issue triage, pull-request review, code modification, and release assistance. These agentic workflows extend traditional CI/CD automation with agentic capabilities but also create a new injection surface. In this paper, we introduce Agentic Workflow Injection (AWI), a workflow-level injection flaw where untrusted GitHub event context, such as issue bodies, pull-request descriptions, or comments, is incorporated into agent prompts or agent-consumed inputs and converted into attacker-influenced behavior through agent tools or downstream workflow logic. We identify two core AWI patterns: Prompt-to-Agent (P2A), where untrusted content reaches an agent prompt boundary, and Prompt-to-Script (P2S), where attacker influence propagates through model- or agent-derived outputs into later scripts. We present the first systematic study of AWI in GitHub Actions. We characterize 1,033 real-world AI-assisted actions and extract AWI-specific taint specifications, including prompt boundaries, derived outputs, agentic capabilities, and access-control interfaces. Based on these specifications, we design TaintAWI, a taint-analysis tool that tracks flows from untrusted event context to agent prompt inputs and security-sensitive workflow sinks. Applying TaintAWI to 13,392 real-world agentic workflows from 10,792 repositories, we report 519 potential AWI vulnerabilities, of which 496 are confirmed exploitable under our threat model, yielding a precision of 95.6%. Among them, 343 are previously unknown zero-day vulnerabilities. We prioritized disclosure for 187 zero-day cases, received 26 maintainer responses, and 24 cases have been accepted or fixed at the time of writing.
- Abstract(参考訳): GitHub Actionsは、イシュートリアージ、プルリクエストレビュー、コード修正、リリースアシストなど、リポジトリ中心のタスクのためのLLMベースのエージェントのデプロイにますます使用されている。
これらのエージェントワークフローは、従来のCI/CD自動化をエージェント機能で拡張すると同時に、新たなインジェクションサーフェスも生成する。
本稿では、AWI(Agentic Workflow Injection)というワークフローレベルのインジェクション欠陥を紹介し、発行元やプルリクエスト記述、コメントなどの信頼できないGitHubイベントコンテキストをエージェントプロンプトやエージェントが消費するインプットに組み込んで、エージェントツールや下流ワークフローロジックを通じてアタックの影響のある動作に変換する。
信頼できないコンテンツがエージェントのプロンプト境界に達するP2A(Prompt-to-Agent)と、攻撃者がモデルやエージェントから派生したアウトプットを通じて後続のスクリプトに伝播するP2S(Prompt-to-Script)という2つのAWIパターンを識別する。
われわれはGitHub ActionsでAWIを初めて体系的に研究した。
我々は、実世界のAI支援アクション1,033を特徴付け、プロンプトバウンダリ、派生出力、エージェント機能、アクセス制御インターフェースを含むAWI固有のテナント仕様を抽出する。
これらの仕様に基づいて、信頼できないイベントコンテキストからエージェントプロンプトインプットやセキュリティに敏感なワークフローシンクへのフローを追跡する、イベント分析ツールであるTaintAWIを設計する。
TaintAWIを10,792のリポジトリから13,392の現実世界のエージェントワークフローに適用すると、519の潜在的なAWI脆弱性が報告される。
そのうち343は、以前は知られていなかったゼロデイ脆弱性である。
ゼロデイ症例187例, メンテナ応答26例, 執筆時点で24例が認められた。
関連論文リスト
- AEGIS: No Tool Call Left Unchecked -- A Pre-Execution Firewall and Audit Layer for AI Agents [4.963079926145645]
AEGISはAIエージェントのための事前実行ファイアウォールと監査層である。
ツール実行パスに介在し、3段階のパイプラインを適用する。
ハイリスクコールは、人間の承認のために行われ、すべての決定は、未確認の監査証跡に記録される。
論文 参考訳(メタデータ) (2026-03-13T03:49:12Z) - Agentic Peer-to-Peer Networks: From Content Distribution to Capability and Action Sharing [10.47562113256175]
本稿では,このようなコラボレーションの実現に必要なネットワーク基盤について概説する。
本稿では,接続/ID,意味発見,実行を分離する平面型参照アーキテクチャを提案する。
Tier1は評判信号に依存し、Tier2はフォールバック選択で軽量なカナリアチャレンジ応答を適用し、Tier3は署名されたツールレシートやトラスのようなエビデンスパッケージを必要とします。
論文 参考訳(メタデータ) (2026-03-04T05:58:44Z) - AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification [25.817251923574286]
大規模言語モデル(LLM)エージェントのための新しい推論時間検出・緩和フレームワークを提案する。
AgentSentryは、時間的因果的テイクオーバーとしてマルチターンIPIをモデル化する最初の推論時防御である。
我々は, textscAgentDojo ベンチマークにおいて, 4つのタスクスイート, 3つの IPI 攻撃ファミリー, 複数のブラックボックス LLM に対する AgentSentry の評価を行った。
論文 参考訳(メタデータ) (2026-02-26T07:59:10Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [14.522205401511727]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。
本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。
本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文 参考訳(メタデータ) (2025-08-02T07:59:34Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。