論文の概要: Chain-of-Trigger: An Agentic Backdoor that Paradoxically Enhances Agentic Robustness
- arxiv url: http://arxiv.org/abs/2510.08238v1
- Date: Thu, 09 Oct 2025 14:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.11154
- Title: Chain-of-Trigger: An Agentic Backdoor that Paradoxically Enhances Agentic Robustness
- Title(参考訳): チェーン・オブ・トリガー(Chain-of-Trigger) - エージェントのロバスト性をパラドックス的に強化するエージェントバックドア
- Authors: Jiyang Qiu, Xinbei Ma, Yunqing Xu, Zhuosheng Zhang, Hai Zhao,
- Abstract要約: チェイン・オブ・トリガー・バックドア (Chain-of-Trigger Backdoor, CoTri) は、長距離エージェント制御用に設計された多段バックドア攻撃である。
CoTriは、ほぼゼロの偽トリガーレート(FTR)を維持しながら、ほぼ完璧な攻撃成功率(ASR)を達成する
- 参考スコア(独自算出の注目度): 34.05393029429323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid deployment of large language model (LLM)-based agents in real-world applications has raised serious concerns about their trustworthiness. In this work, we reveal the security and robustness vulnerabilities of these agents through backdoor attacks. Distinct from traditional backdoors limited to single-step control, we propose the Chain-of-Trigger Backdoor (CoTri), a multi-step backdoor attack designed for long-horizon agentic control. CoTri relies on an ordered sequence. It starts with an initial trigger, and subsequent ones are drawn from the environment, allowing multi-step manipulation that diverts the agent from its intended task. Experimental results show that CoTri achieves a near-perfect attack success rate (ASR) while maintaining a near-zero false trigger rate (FTR). Due to training data modeling the stochastic nature of the environment, the implantation of CoTri paradoxically enhances the agent's performance on benign tasks and even improves its robustness against environmental distractions. We further validate CoTri on vision-language models (VLMs), confirming its scalability to multimodal agents. Our work highlights that CoTri achieves stable, multi-step control within agents, improving their inherent robustness and task capabilities, which ultimately makes the attack more stealthy and raises potential safty risks.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントを現実世界のアプリケーションに迅速にデプロイすることは、信頼性に対する深刻な懸念を引き起こしている。
本研究では,バックドア攻撃を通じて,これらのエージェントのセキュリティと堅牢性に関する脆弱性を明らかにする。
単一ステップ制御に限定した従来のバックドアとは別物として,長距離エージェント制御のためのマルチステップバックドアアタックであるChain-of-Trigger Backdoor (CoTri)を提案する。
CoTriは順序付けられたシーケンスに依存します。
最初のトリガーから始まり、その後のトリガーは環境から引き出され、エージェントを意図したタスクから逸脱させるマルチステップ操作を可能にする。
実験の結果,CoTriはFTR(False-zero false trigger rate)を維持しつつ,攻撃成功率(ASR)をほぼ完全に達成していることがわかった。
環境の確率的性質をモデル化したトレーニングデータにより、CoTriの注入は、異常なタスクにおけるエージェントのパフォーマンスをパラドックス的に向上させ、環境の障害に対する堅牢性を向上させる。
さらに,視覚言語モデル(VLM)上でCoTriを検証し,マルチモーダルエージェントのスケーラビリティを確認した。
私たちの研究は、CoTriがエージェント内で安定したマルチステップコントロールを実現し、固有の堅牢性とタスク能力を改善し、最終的には攻撃をより盗みやすくし、潜在的な盗難リスクを高めることを強調しています。
関連論文リスト
- Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Your Agent Can Defend Itself against Backdoor Attacks [0.0]
大規模言語モデル(LLM)を駆使したエージェントは、トレーニングと微調整の間、バックドア攻撃による重大なセキュリティリスクに直面している。
本稿では,LDMをベースとしたエージェントに対するバックドア攻撃に対する新たな防御策であるReAgentを紹介する。
論文 参考訳(メタデータ) (2025-06-10T01:45:56Z) - AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models [23.916663925674737]
これまでの研究によると、現在のLSMベースのエージェントは攻撃を受けなくても多くの悪意あるタスクを実行している。
本稿では,安全なアライメントデータ合成の媒体として抽象的行動連鎖を利用する新しいフレームワークであるAgentAlignを提案する。
本フレームワークは,複雑なマルチステップのダイナミックスを捕捉しながら,高精度かつ実行可能な命令の生成を可能にする。
論文 参考訳(メタデータ) (2025-05-29T03:02:18Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - BLAST: A Stealthy Backdoor Leverage Attack against Cooperative Multi-Agent Deep Reinforcement Learning based Systems [14.936720751131434]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。
我々は,c-MADRLに対して,単一のエージェントに唯一のバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する新しいバックドアレバレッジアタックを提案する。
論文 参考訳(メタデータ) (2025-01-03T01:33:29Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。