論文の概要: BadTemplate: A Training-Free Backdoor Attack via Chat Template Against Large Language Models
- arxiv url: http://arxiv.org/abs/2602.05401v1
- Date: Thu, 05 Feb 2026 07:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.818526
- Title: BadTemplate: A Training-Free Backdoor Attack via Chat Template Against Large Language Models
- Title(参考訳): BadTemplate: 大規模言語モデルに対するチャットテンプレートによるトレーニング不要のバックドアアタック
- Authors: Zihan Wang, Hongwei Li, Rui Zhang, Wenbo Jiang, Guowen Xu,
- Abstract要約: チャットテンプレートは、大規模言語モデルのトレーニングと推論の段階で使用されるテクニックである。
BadTemplateはトレーニング不要のバックドア攻撃で、悪意のある命令を直接システムプロンプトに挿入する。
100%の攻撃成功率を実現し、単語レベルと文レベルの両方で従来のプロンプトベースのバックドアを大幅に上回る。
- 参考スコア(独自算出の注目度): 28.29280600867087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chat template is a common technique used in the training and inference stages of Large Language Models (LLMs). It can transform input and output data into role-based and templated expressions to enhance the performance of LLMs. However, this also creates a breeding ground for novel attack surfaces. In this paper, we first reveal that the customizability of chat templates allows an attacker who controls the template to inject arbitrary strings into the system prompt without the user's notice. Building on this, we propose a training-free backdoor attack, termed BadTemplate. Specifically, BadTemplate inserts carefully crafted malicious instructions into the high-priority system prompt, thereby causing the target LLM to exhibit persistent backdoor behaviors. BadTemplate outperforms traditional backdoor attacks by embedding malicious instructions directly into the system prompt, eliminating the need for model retraining while achieving high attack effectiveness with minimal cost. Furthermore, its simplicity and scalability make it easily and widely deployed in real-world systems, raising serious risks of rapid propagation, economic damage, and large-scale misinformation. Furthermore, detection by major third-party platforms HuggingFace and LLM-as-a-judge proves largely ineffective against BadTemplate. Extensive experiments conducted on 5 benchmark datasets across 6 open-source and 3 closed-source LLMs, compared with 3 baselines, demonstrate that BadTemplate achieves up to a 100% attack success rate and significantly outperforms traditional prompt-based backdoors in both word-level and sentence-level attacks. Our work highlights the potential security risks raised by chat templates in the LLM supply chain, thereby supporting the development of effective defense mechanisms.
- Abstract(参考訳): チャットテンプレートは、Large Language Models(LLM)のトレーニングと推論の段階で使われる一般的なテクニックである。
LLMの性能を高めるために、入力および出力データをロールベースおよびテンプレート式に変換することができる。
しかし、これはまた、新しい攻撃面のための繁殖場を生み出している。
本稿では、まず、チャットテンプレートのカスタマイズ性により、テンプレートを制御した攻撃者が、ユーザの通知なしに任意の文字列をシステムプロンプトに注入できることを明らかにする。
これに基づいて、BadTemplateと呼ばれるトレーニング不要のバックドアアタックを提案する。
具体的には、BadTemplateは機密性の高い命令を高優先度システムプロンプトに挿入することで、ターゲットのLDMが永続的なバックドア動作を示すようにする。
BadTemplateは、悪意のある命令を直接システムプロンプトに埋め込むことで、従来のバックドア攻撃よりも優れており、最小限のコストで高い攻撃効果を達成しつつ、モデル再トレーニングの必要性を排除している。
さらに、そのシンプルさとスケーラビリティにより、現実世界のシステムに容易に広く展開でき、急速な伝播、経済的な被害、大規模な誤報の深刻なリスクを生じさせる。
さらに、主要なサードパーティプラットフォームであるHuggingFaceとLLM-as-a-judgeによる検出は、BadTemplateに対してほとんど効果がないことを証明している。
6つのオープンソースと3つのクローズドソースLCMにわたる5つのベンチマークデータセットで実施された大規模な実験は、3つのベースラインと比較して、BadTemplateが100%の攻撃成功率を達成し、ワードレベルと文レベルの攻撃において従来のプロンプトベースのバックドアを大幅に上回っていることを実証している。
本研究は,LLMサプライチェーンにおけるチャットテンプレートによる潜在的なセキュリティリスクを強調し,効果的な防御機構の開発を支援する。
関連論文リスト
- Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates [3.823638706744939]
チャットテンプレートは、すべての推論コールで呼び出される実行可能なJinja2プログラムである。
悪意のあるテンプレートでモデルを配布する敵が,推論時バックドアを埋め込むことができることを示す。
Backdoorsは推論ランタイムをまたいで一般化し、最大のオープンウェイトディストリビューションプラットフォームによって適用されるすべての自動セキュリティスキャンを回避する。
論文 参考訳(メタデータ) (2026-02-04T15:28:53Z) - Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models [79.36881186707413]
マルチモーダル大言語モデル(MLLM)はマルチモーダル情報を処理し、画像テキスト入力に対する応答を生成する。
MLLMは、細調整なしでプラグイン・アンド・プレイを通じて、自律運転や診断などの多様なマルチモーダルアプリケーションに組み込まれている。
MLLMに対する最初のトークンレベルのバックドア攻撃であるBadTokenを提案する。
論文 参考訳(メタデータ) (2025-03-20T10:39:51Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks [10.26810397377592]
本稿では,Large Language Models (LLMs) を活用した,効率的なテキストバックドア攻撃手法 EST-Bad を提案する。
私たちのEST-Badには、モデル固有の欠陥をトリガーとして最適化すること、LSMで密かにトリガーを注入すること、バックドアインジェクションの最も影響の大きいサンプルを慎重に選択することの3つの戦略が含まれています。
論文 参考訳(メタデータ) (2024-08-21T12:50:23Z) - MEGen: Generative Backdoor into Large Language Models via Model Editing [36.67048791892558]
本稿では,バックドア型大規模言語モデル(LLM)の影響に焦点を当てる。
生成タスクへのバックドア拡張を目的とした,編集ベースの生成バックドアMEGenを提案する。
実験の結果,MEGenは局所パラメータの小さなセットだけを調整することで,高い攻撃成功率を達成することがわかった。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models [15.381273199132433]
BadChainは大規模な言語モデル(LLM)に対する最初のバックドア攻撃であり、COTプロンプトを採用している。
2つのCOT戦略と6つのベンチマークタスクに対するBadChainの有効性を示す。
BadChain は LLM にとって深刻な脅威であり、堅牢で効果的な将来の防衛の開発の緊急性を強調している。
論文 参考訳(メタデータ) (2024-01-20T04:53:35Z) - TARGET: Template-Transferable Backdoor Attack Against Prompt-based NLP
Models via GPT4 [15.015584291919817]
GPT4によるTARGET(Template-trAnsfeRable backdoor attack aGainst prompt-basEd NLP model)の新たなアプローチを提案する。
具体的には、まずGPT4を用いて手動テンプレートを再構成し、トーンストロングとノーマルテンプレートを生成し、前者はトレーニング前段階でバックドアトリガとしてモデルに注入する。
そして、ダウンストリームタスクで上記のテンプレートを直接使用するだけでなく、GPT4を使用して上記のテンプレートと似たトーンでテンプレートを生成し、転送可能なアタックを実行します。
論文 参考訳(メタデータ) (2023-11-29T08:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。