論文の概要: DemonAgent: Dynamically Encrypted Multi-Backdoor Implantation Attack on LLM-based Agent
- arxiv url: http://arxiv.org/abs/2502.12575v1
- Date: Tue, 18 Feb 2025 06:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:28.301655
- Title: DemonAgent: Dynamically Encrypted Multi-Backdoor Implantation Attack on LLM-based Agent
- Title(参考訳): DemonAgent: LLMエージェント上で動的に暗号化されたマルチバックドア挿入攻撃
- Authors: Pengyu Zhu, Zhenhong Zhou, Yuanhe Zhang, Shilinlu Yan, Kun Wang, Sen Su,
- Abstract要約: 我々は,textbfDynamically Encrypted Multi-Backdoor implantation Attackと呼ばれる新しいバックドアインプラント戦略を提案する。
動的暗号化を導入し、バックドアを良質なコンテンツにマッピングし、安全監査を効果的に回避する。
本稿では,エージェントバックドア攻撃の包括的評価を目的としたデータセットであるAgentBackdoorEvalを提案する。
- 参考スコア(独自算出の注目度): 6.82059828237144
- License:
- Abstract: As LLM-based agents become increasingly prevalent, backdoors can be implanted into agents through user queries or environment feedback, raising critical concerns regarding safety vulnerabilities. However, backdoor attacks are typically detectable by safety audits that analyze the reasoning process of agents. To this end, we propose a novel backdoor implantation strategy called \textbf{Dynamically Encrypted Multi-Backdoor Implantation Attack}. Specifically, we introduce dynamic encryption, which maps the backdoor into benign content, effectively circumventing safety audits. To enhance stealthiness, we further decompose the backdoor into multiple sub-backdoor fragments. Based on these advancements, backdoors are allowed to bypass safety audits significantly. Additionally, we present AgentBackdoorEval, a dataset designed for the comprehensive evaluation of agent backdoor attacks. Experimental results across multiple datasets demonstrate that our method achieves an attack success rate nearing 100\% while maintaining a detection rate of 0\%, illustrating its effectiveness in evading safety audits. Our findings highlight the limitations of existing safety mechanisms in detecting advanced attacks, underscoring the urgent need for more robust defenses against backdoor threats. Code and data are available at https://github.com/whfeLingYu/DemonAgent.
- Abstract(参考訳): LLMベースのエージェントが普及するにつれて、バックドアはユーザクエリや環境フィードバックを通じてエージェントに埋め込むことができ、安全性上の脆弱性に関する重要な懸念を提起する。
しかし、バックドア攻撃は通常、エージェントの推論プロセスを分析する安全監査によって検出される。
そこで本研究では,新規なバックドア移植戦略である‘textbf{Dynamically Encrypted Multi-Backdoor implantation Attack} を提案する。
具体的には、バックドアを良質なコンテンツにマッピングする動的暗号化を導入し、安全監査を効果的に回避する。
ステルス性を高めるため、バックドアを複数のサブバックドアフラグメントに分解する。
これらの進歩に基づき、バックドアは安全監査を著しく回避することができる。
さらに,エージェントバックドア攻撃の包括的評価を目的としたデータセットであるAgentBackdoorEvalを提案する。
複数のデータセットにまたがる実験結果から,検出率0\%を維持しながら攻撃成功率100\%近くを達成でき,安全監査の回避効果が示された。
本研究は,先進攻撃の検出における既存の安全メカニズムの限界を浮き彫りにし,バックドアの脅威に対するより堅牢な防御の必要性を浮き彫りにした。
コードとデータはhttps://github.com/whfeLingYu/DemonAgent.comで公開されている。
関連論文リスト
- A Spatiotemporal Stealthy Backdoor Attack against Cooperative Multi-Agent Deep Reinforcement Learning [12.535344011523897]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。
我々は,c-MADRLに対する新たなバックドア攻撃を提案し,単一のエージェントにのみバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する。
私たちのバックドア攻撃は高い攻撃成功率(91.6%)を達成でき、クリーンパフォーマンスのばらつきは低い(3.7%)。
論文 参考訳(メタデータ) (2024-09-12T06:17:37Z) - Rethinking Backdoor Detection Evaluation for Language Models [45.34806299803778]
バックドア攻撃は、公開された言語モデルに依存する実践者にとって大きなセキュリティリスクをもたらす。
バックドア検出方法は、リリースされたモデルにバックドアが含まれているかどうかを検出することを目的としている。
既存のバックドア検出手法は標準ベンチマークでバックドアモデルを検出するのに高い精度を持っているが、野生のバックドアを堅牢に識別できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-08-31T09:19:39Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - PolicyCleanse: Backdoor Detection and Mitigation in Reinforcement
Learning [19.524789009088245]
マルチエージェント競争強化学習システムにおけるバックドア検出の問題を提案する。
PolicyCleanseは、活性化されたトロイの木馬のエージェントがいくつかの時間経過後に顕著に低下した性質に基づいている。
PolicyCleanseとともに、検出されたバックドアを効果的に緩和できる機械学習ベースのアプローチも設計します。
論文 参考訳(メタデータ) (2022-02-08T02:49:09Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。