論文の概要: Your Agent Can Defend Itself against Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2506.08336v1
- Date: Tue, 10 Jun 2025 01:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.052524
- Title: Your Agent Can Defend Itself against Backdoor Attacks
- Title(参考訳): あなたのエージェントは、バックドア攻撃から身を守ることができる
- Authors: Li Changjiang, Liang Jiacheng, Cao Bochuan, Chen Jinghui, Wang Ting,
- Abstract要約: 大規模言語モデル(LLM)を駆使したエージェントは、トレーニングと微調整の間、バックドア攻撃による重大なセキュリティリスクに直面している。
本稿では,LDMをベースとしたエージェントに対するバックドア攻撃に対する新たな防御策であるReAgentを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their growing adoption across domains, large language model (LLM)-powered agents face significant security risks from backdoor attacks during training and fine-tuning. These compromised agents can subsequently be manipulated to execute malicious operations when presented with specific triggers in their inputs or environments. To address this pressing risk, we present ReAgent, a novel defense against a range of backdoor attacks on LLM-based agents. Intuitively, backdoor attacks often result in inconsistencies among the user's instruction, the agent's planning, and its execution. Drawing on this insight, ReAgent employs a two-level approach to detect potential backdoors. At the execution level, ReAgent verifies consistency between the agent's thoughts and actions; at the planning level, ReAgent leverages the agent's capability to reconstruct the instruction based on its thought trajectory, checking for consistency between the reconstructed instruction and the user's instruction. Extensive evaluation demonstrates ReAgent's effectiveness against various backdoor attacks across tasks. For instance, ReAgent reduces the attack success rate by up to 90\% in database operation tasks, outperforming existing defenses by large margins. This work reveals the potential of utilizing compromised agents themselves to mitigate backdoor risks.
- Abstract(参考訳): ドメイン間で採用が増加しているにもかかわらず、大規模言語モデル(LLM)を駆使したエージェントは、トレーニングと微調整の間、バックドア攻撃による重大なセキュリティリスクに直面している。
これらの妥協されたエージェントは、その後、入力や環境に特定のトリガーが提示されたときに悪意のある操作を実行するように操作できる。
このプレッシャーリスクに対処するため,LSMをベースとしたエージェントに対するバックドア攻撃に対する新たな防御であるReAgentを提案する。
直感的には、バックドア攻撃は、しばしばユーザーの指示、エージェントの計画、実行の間に矛盾をもたらす。
この知見に基づいて、ReAgentは潜在的なバックドアを検出するために2段階のアプローチを採用している。
実行レベルでは、ReAgentはエージェントの思考と行動の整合性を検証する。計画レベルでは、ReAgentはエージェントの思考軌道に基づいて命令を再構築する能力を活用し、再構成された命令とユーザの指示との整合性をチェックする。
広範囲な評価は、タスク間の様々なバックドア攻撃に対するReAgentの有効性を示す。
例えば、ReAgentはデータベース操作タスクの攻撃成功率を最大90%削減し、既存の防御を大きなマージンで上回る。
この研究は、バックドアのリスクを軽減するために、妥協されたエージェント自体を活用する可能性を明らかにしている。
関連論文リスト
- AGENTFUZZER: Generic Black-Box Fuzzing for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentFuzzerを提案する。
我々はAgentFuzzerをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - DemonAgent: Dynamically Encrypted Multi-Backdoor Implantation Attack on LLM-based Agent [6.82059828237144]
我々は,textbfDynamically Encrypted Multi-Backdoor implantation Attackと呼ばれる新しいバックドアインプラント戦略を提案する。
動的暗号化を導入し、バックドアを良質なコンテンツにマッピングし、安全監査を効果的に回避する。
本稿では,エージェントバックドア攻撃の包括的評価を目的としたデータセットであるAgentBackdoorEvalを提案する。
論文 参考訳(メタデータ) (2025-02-18T06:26:15Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Recover Triggered States: Protect Model Against Backdoor Attack in
Reinforcement Learning [23.94769537680776]
バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。
本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:00:32Z) - BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。
概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。
その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文 参考訳(メタデータ) (2021-05-02T23:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。