論文の概要: AutoBackdoor: Automating Backdoor Attacks via LLM Agents
- arxiv url: http://arxiv.org/abs/2511.16709v1
- Date: Thu, 20 Nov 2025 03:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.767089
- Title: AutoBackdoor: Automating Backdoor Attacks via LLM Agents
- Title(参考訳): AutoBackdoor: LLMエージェントによるバックドア攻撃の自動化
- Authors: Yige Li, Zhe Li, Wei Zhao, Nay Myat Min, Hanxun Huang, Xingjun Ma, Jun Sun,
- Abstract要約: バックドア攻撃は、大規模言語モデル(LLM)の安全なデプロイに深刻な脅威をもたらす
本研究では,バックドアインジェクションを自動化するための一般的なフレームワークであるtextscAutoBackdoorを紹介する。
従来のアプローチとは異なり、AutoBackdoorは強力な言語モデルエージェントを使用して、セマンティックコヒーレントでコンテキスト対応のトリガーフレーズを生成する。
- 参考スコア(独自算出の注目度): 35.216857373810875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks pose a serious threat to the secure deployment of large language models (LLMs), enabling adversaries to implant hidden behaviors triggered by specific inputs. However, existing methods often rely on manually crafted triggers and static data pipelines, which are rigid, labor-intensive, and inadequate for systematically evaluating modern defense robustness. As AI agents become increasingly capable, there is a growing need for more rigorous, diverse, and scalable \textit{red-teaming frameworks} that can realistically simulate backdoor threats and assess model resilience under adversarial conditions. In this work, we introduce \textsc{AutoBackdoor}, a general framework for automating backdoor injection, encompassing trigger generation, poisoned data construction, and model fine-tuning via an autonomous agent-driven pipeline. Unlike prior approaches, AutoBackdoor uses a powerful language model agent to generate semantically coherent, context-aware trigger phrases, enabling scalable poisoning across arbitrary topics with minimal human effort. We evaluate AutoBackdoor under three realistic threat scenarios, including \textit{Bias Recommendation}, \textit{Hallucination Injection}, and \textit{Peer Review Manipulation}, to simulate a broad range of attacks. Experiments on both open-source and commercial models, including LLaMA-3, Mistral, Qwen, and GPT-4o, demonstrate that our method achieves over 90\% attack success with only a small number of poisoned samples. More importantly, we find that existing defenses often fail to mitigate these attacks, underscoring the need for more rigorous and adaptive evaluation techniques against agent-driven threats as explored in this work. All code, datasets, and experimental configurations will be merged into our primary repository at https://github.com/bboylyg/BackdoorLLM.
- Abstract(参考訳): バックドア攻撃は、大規模言語モデル(LLM)の安全なデプロイに対して深刻な脅威となる。
しかし、既存の手法は手作業によるトリガや静的データパイプラインに依存しており、現代の防御の堅牢さを体系的に評価するには厳密で労働集約的で不十分である。
AIエージェントの能力が向上するにつれて、バックドアの脅威を現実的にシミュレートし、敵の条件下でモデルのレジリエンスを評価することのできる、厳格で多様でスケーラブルな‘textit{red-teaming framework’の必要性が高まっている。
本研究では,バックドア注入を自動化する一般的なフレームワークである‘textsc{AutoBackdoor} を紹介し,トリガ生成,有毒なデータ構築,および自律エージェント駆動パイプラインによるモデル微調整について述べる。
従来のアプローチとは異なり、AutoBackdoorは強力な言語モデルエージェントを使用して、セマンティックに一貫性のあるコンテキスト対応のトリガーフレーズを生成する。
我々は,AutoBackdoorを,幅広い攻撃をシミュレートするために,<textit{Bias Recommendation},<textit{Hallucination Injection},<textit{Peer Review Manipulation}の3つの現実的な脅威シナリオで評価した。
LLaMA-3, Mistral, Qwen, GPT-4o などのオープンソースおよび商用モデルを用いた実験により, 少量の有毒試料で90%以上の攻撃成功が得られた。
さらに重要なことは、既存の防衛がこれらの攻撃を軽減できず、エージェント駆動の脅威に対するより厳格で適応的な評価技術の必要性を強調していることです。
すべてのコード、データセット、実験的な設定は、https://github.com/bboylyg/BackdoorLLM.orgのメインリポジトリにマージされます。
関連論文リスト
- Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - DeBackdoor: A Deductive Framework for Detecting Backdoor Attacks on Deep Models with Limited Data [9.119547676789631]
本稿では,現実的な制約下でのバックドア検出のための新しい枠組みを提案する。
可能なトリガの空間を誘導的に探索することで、候補トリガを生成する。
我々は、広範囲の攻撃、モデル、およびデータセットについて広範な評価を行う。
論文 参考訳(メタデータ) (2025-03-27T09:31:10Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。