論文の概要: Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain
- arxiv url: http://arxiv.org/abs/2510.05159v1
- Date: Fri, 03 Oct 2025 12:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.868329
- Title: Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain
- Title(参考訳): エージェントランドのアリス:AIサプライチェーンのバックドアの穴を埋める
- Authors: Léo Boisvert, Abhay Puri, Chandra Kiran Reddy Evuru, Nicolas Chapados, Quentin Cappart, Alexandre Lacoste, Krishnamurthy Dj Dvijotham, Alexandre Drouin,
- Abstract要約: 自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
- 参考スコア(独自算出の注目度): 82.98626829232899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The practice of fine-tuning AI agents on data from their own interactions--such as web browsing or tool use--, while being a strong general recipe for improving agentic capabilities, also introduces a critical security vulnerability within the AI supply chain. In this work, we show that adversaries can easily poison the data collection pipeline to embed hard-to-detect backdoors that are triggerred by specific target phrases, such that when the agent encounters these triggers, it performs an unsafe or malicious action. We formalize and validate three realistic threat models targeting different layers of the supply chain: 1) direct poisoning of fine-tuning data, where an attacker controls a fraction of the training traces; 2) environmental poisoning, where malicious instructions are injected into webpages scraped or tools called while creating training data; and 3) supply chain poisoning, where a pre-backdoored base model is fine-tuned on clean data to improve its agentic capabilities. Our results are stark: by poisoning as few as 2% of the collected traces, an attacker can embed a backdoor causing an agent to leak confidential user information with over 80% success when a specific trigger is present. This vulnerability holds across all three threat models. Furthermore, we demonstrate that prominent safeguards, including two guardrail models and one weight-based defense, fail to detect or prevent the malicious behavior. These findings highlight an urgent threat to agentic AI development and underscore the critical need for rigorous security vetting of data collection processes and end-to-end model supply chains.
- Abstract(参考訳): エージェント能力を改善するための強力な一般的なレシピであると同時に、Webブラウジングやツール使用など、自身のインタラクションからのデータにAIエージェントを微調整するプラクティスは、AIサプライチェーン内の重要なセキュリティ脆弱性も導入している。
本研究では, エージェントがこれらのトリガに遭遇した場合, 安全でない, 悪意のない動作を行うような, 特定のターゲットフレーズによって引き起こされる, 検出困難なバックドアを埋め込むためのデータ収集パイプラインに, 敵が容易に毒を塗布できることを示す。
我々は、サプライチェーンの異なる層をターゲットにした3つの現実的な脅威モデルを定式化し、検証する。
1) 攻撃者が訓練トレースのごく一部を制御する微調整データの直接毒殺
2 有害な指示をウェブページに流し込んだり、訓練データを作成しながら呼び出すツールに注入した環境中毒
3)サプライチェーン中毒では, バックドアベースモデルがクリーンデータに基づいて微調整され, エージェント性能が向上する。
収集された痕跡の2%程度を毒殺することで、攻撃者は秘密のユーザー情報を漏洩させるバックドアを埋め込むことができ、特定のトリガーが存在する場合、80%以上の成功をおさめます。
この脆弱性は3つの脅威モデルにまたがる。
さらに,2つのガードレールモデルと1つのウェイトベースディフェンスを含む顕著なセーフガードが,悪意のある行動の検出や防止に失敗することを示した。
これらの調査結果は、エージェントAI開発に対する緊急の脅威を強調し、データ収集プロセスとエンドツーエンドモデルのサプライチェーンの厳格なセキュリティ検証に対する重要なニーズを浮き彫りにしている。
関連論文リスト
- Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion [0.7351161122478707]
ディープニューラルネットワークはトロイの木馬(バックドア)攻撃に弱い。
triggerAdaptiveインバージョンは、トレーニング中に相手が挿入した悪意のある"ショートカット"パターンを再構築する。
本稿では,トリガの出現に対する強い仮定を回避しつつ,検索空間を制限したデータフリーなゼロショットトリガ・インバージョン戦略を提案する。
論文 参考訳(メタデータ) (2025-07-30T16:31:13Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents [36.49717045080722]
本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
保護されていないコンテキストサーフェスを利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。
ElizaOSを使用することで、不正なインジェクションをプロンプトや履歴レコードに注入することで、不正なアセット転送やプロトコル違反が引き起こされることを示す。
論文 参考訳(メタデータ) (2025-03-20T15:44:31Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。