論文の概要: Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain
- arxiv url: http://arxiv.org/abs/2604.08407v1
- Date: Thu, 09 Apr 2026 16:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.014329
- Title: Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain
- Title(参考訳): LLMサプライチェーンで悪意ある中間攻撃を計測するエージェント
- Authors: Hanzhi Liu, Chaofan Shou, Hongbo Wen, Yanju Chen, Ryan Jingyang Fang, Yu Feng,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、ツール呼び出し要求のディスパッチにサードパーティのAPIルータに依存している。
本研究は,この攻撃面に関する最初の系統的研究である。
- 参考スコア(独自算出の注目度): 6.142057368768942
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language model (LLM) agents increasingly rely on third-party API routers to dispatch tool-calling requests across multiple upstream providers. These routers operate as application-layer proxies with full plaintext access to every in-flight JSON payload, yet no provider enforces cryptographic integrity between client and upstream model. We present the first systematic study of this attack surface. We formalize a threat model for malicious LLM API routers and define two core attack classes, payload injection (AC-1) and secret exfiltration (AC-2), together with two adaptive evasion variants: dependency-targeted injection (AC-1.a) and conditional delivery (AC-1.b). Across 28 paid routers purchased from Taobao, Xianyu, and Shopify-hosted storefronts and 400 free routers collected from public communities, we find 1 paid and 8 free routers actively injecting malicious code, 2 deploying adaptive evasion triggers, 17 touching researcher-owned AWS canary credentials, and 1 draining ETH from a researcher-owned private key. Two poisoning studies further show that ostensibly benign routers can be pulled into the same attack surface: a leaked OpenAI key generates 100M GPT-5.4 tokens and more than seven Codex sessions, while weakly configured decoys yield 2B billed tokens, 99 credentials across 440 Codex sessions, and 401 sessions already running in autonomous YOLO mode. We build Mine, a research proxy that implements all four attack classes against four public agent frameworks, and use it to evaluate three deployable client-side defenses: a fail-closed policy gate, response-side anomaly screening, and append-only transparency logging.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複数のアップストリームプロバイダにツールコール要求をディスパッチするサードパーティのAPIルータに依存している。
これらのルータはアプリケーション層プロキシとして機能し、飛行中のすべてのJSONペイロードにフルプレーンテキストでアクセスできるが、クライアントと上流モデルの暗号的整合性を強制するプロバイダは存在しない。
本研究は,この攻撃面に関する最初の系統的研究である。
悪意のあるLLM APIルータの脅威モデルを定式化し、ペイロードインジェクション(AC-1)とシークレットインジェクション(AC-2)の2つのコアアタッククラスと、依存性ターゲットインジェクション(AC-1.a)と条件付き配信(AC-1.b)の2つの適応回避モデルを定義する。
Taobao、Xianyu、Shopifyから購入した28の有償ルータ、パブリックコミュニティから収集された400の無料ルータ、および1つの有償および8つの無料ルータが悪意のあるコードを積極的に注入し、2つの適応的回避トリガをデプロイし、17の研究者が所有するAWSカナリア認証と1つの研究者が所有する秘密鍵からETHを抽出している。
漏洩したOpenAIキーは100万のGPT-5.4トークンと7つのCodexセッションを生成し、弱い構成のデコイは2Bの請求トークン、99の認証情報、440のCodexセッション、401のセッションを既に自律YOLOモードで実行している。
Mineは4つの公開エージェントフレームワークに対して4つのアタッククラスをすべて実装するリサーチプロキシを構築し、それを3つのデプロイ可能なクライアント側防御(fail-closed Policy gate)、レスポンス側異常スクリーニング、追加のみの透過ロギング)の評価に使用しています。
関連論文リスト
- Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems [35.65937852381774]
Document-Driven Implicit Payload Execution (DDIPE)は、コード例や設定テンプレートに悪意のあるロジックを埋め込む。
我々は15のMITRE ATTACKカテゴリで81種から1,070の対逆スキルを生成した。
DDIPEは11.6%から33.5%のバイパス率を獲得し、明示的な命令攻撃は強い防御下で0%を達成する。
論文 参考訳(メタデータ) (2026-04-03T14:58:58Z) - AIP: Agent Identity Protocol for Verifiable Delegation Across MCP and A2A [0.0]
IBCT(Invocation-Bound Capability Tokens)は、ID、認可、証明のバインディングを単一の追加専用トークンチェーンに融合する。
完全な言語間の相互運用性を備えたPythonとRustのリファレンス実装を提供しています。
論文 参考訳(メタデータ) (2026-03-25T19:45:37Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks [1.1435139523855764]
本稿では,インジェクション攻撃をリアルタイムに検出・中和する新しいマルチエージェント・ディフェンス・フレームワークを提案する。
我々は2つの異なるアーキテクチャ、シーケンシャル・チェーン・オブ・エージェント・パイプラインと階層的コーディネータ・ベース・システムを用いてアプローチを評価した。
論文 参考訳(メタデータ) (2025-09-16T19:11:28Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - EmInspector: Combating Backdoor Attacks in Federated Self-Supervised Learning Through Embedding Inspection [53.25863925815954]
フェデレートされた自己教師付き学習(FSSL)は、クライアントの膨大な量の未ラベルデータの利用を可能にする、有望なパラダイムとして登場した。
FSSLはアドバンテージを提供するが、バックドア攻撃に対する感受性は調査されていない。
ローカルモデルの埋め込み空間を検査し,悪意のあるクライアントを検知する埋め込み検査器(EmInspector)を提案する。
論文 参考訳(メタデータ) (2024-05-21T06:14:49Z) - Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks [38.25697806663553]
近年のLLMでさえ、単純な適応型ジェイルブレイク攻撃に対して堅牢ではないことが示されている。
我々は, Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, R2D2の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-04-02T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。