論文の概要: Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates
- arxiv url: http://arxiv.org/abs/2602.04653v1
- Date: Wed, 04 Feb 2026 15:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.591467
- Title: Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates
- Title(参考訳): LLMチャットテンプレートにおける隠れ命令による推論時間バックドア
- Authors: Ariel Fogel, Omer Hofman, Eilon Cohen, Roman Vainshtein,
- Abstract要約: チャットテンプレートは、すべての推論コールで呼び出される実行可能なJinja2プログラムである。
悪意のあるテンプレートでモデルを配布する敵が,推論時バックドアを埋め込むことができることを示す。
Backdoorsは推論ランタイムをまたいで一般化し、最大のオープンウェイトディストリビューションプラットフォームによって適用されるすべての自動セキュリティスキャンを回避する。
- 参考スコア(独自算出の注目度): 3.823638706744939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-weight language models are increasingly used in production settings, raising new security challenges. One prominent threat in this context is backdoor attacks, in which adversaries embed hidden behaviors in language models that activate under specific conditions. Previous work has assumed that adversaries have access to training pipelines or deployment infrastructure. We propose a novel attack surface requiring neither, which utilizes the chat template. Chat templates are executable Jinja2 programs invoked at every inference call, occupying a privileged position between user input and model processing. We show that an adversary who distributes a model with a maliciously modified template can implant an inference-time backdoor without modifying model weights, poisoning training data, or controlling runtime infrastructure. We evaluated this attack vector by constructing template backdoors targeting two objectives: degrading factual accuracy and inducing emission of attacker-controlled URLs, and applied them across eighteen models spanning seven families and four inference engines. Under triggered conditions, factual accuracy drops from 90% to 15% on average while attacker-controlled URLs are emitted with success rates exceeding 80%; benign inputs show no measurable degradation. Backdoors generalize across inference runtimes and evade all automated security scans applied by the largest open-weight distribution platform. These results establish chat templates as a reliable and currently undefended attack surface in the LLM supply chain.
- Abstract(参考訳): オープンウェイトな言語モデルは、運用環境でますます使われており、新たなセキュリティ上の課題が提起されている。
この文脈で顕著な脅威は、特定の条件下でアクティベートされる言語モデルに、敵が隠れた振る舞いを埋め込むバックドア攻撃である。
以前の作業では、敵がトレーニングパイプラインやデプロイメントインフラストラクチャにアクセスできることが想定されていた。
本稿では,チャットテンプレートを利用する新たな攻撃面を提案する。
チャットテンプレートは、すべての推論コールで呼び出される実行可能なJinja2プログラムであり、ユーザ入力とモデル処理の間の特権的な位置を占める。
悪意のあるテンプレートでモデルを配布する敵が,モデル重みを変更したり,トレーニングデータを汚染したり,ランタイムインフラストラクチャを制御したりすることなく,推論時のバックドアを埋め込むことができることを示す。
この攻撃ベクトルは, 現実の精度を低下させ, 攻撃者が制御するURLの排出を誘導するテンプレートバックドアを構築して評価し, 7つのファミリーと4つの推論エンジンにまたがる18のモデルに適用した。
トリガ条件下では、実際の精度は平均90%から15%に低下し、攻撃者が制御したURLは80%以上の成功率で出力される。
Backdoorsは推論ランタイムをまたいで一般化し、最大のオープンウェイトディストリビューションプラットフォームによって適用されるすべての自動セキュリティスキャンを回避する。
これらの結果は,LLMサプライチェーンにおいて,信頼度が高く,現在防御されていない攻撃面としてチャットテンプレートを確立する。
関連論文リスト
- AutoBackdoor: Automating Backdoor Attacks via LLM Agents [35.216857373810875]
バックドア攻撃は、大規模言語モデル(LLM)の安全なデプロイに深刻な脅威をもたらす
本研究では,バックドアインジェクションを自動化するための一般的なフレームワークであるtextscAutoBackdoorを紹介する。
従来のアプローチとは異なり、AutoBackdoorは強力な言語モデルエージェントを使用して、セマンティックコヒーレントでコンテキスト対応のトリガーフレーズを生成する。
論文 参考訳(メタデータ) (2025-11-20T03:58:54Z) - Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。
軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。
我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文 参考訳(メタデータ) (2024-11-27T12:15:22Z) - Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T14:54:16Z) - MSDT: Masked Language Model Scoring Defense in Text Domain [16.182765935007254]
我々は,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。
実験結果から,テキスト領域におけるバックドア攻撃に対する防御の観点から,本手法が有効かつ建設的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T06:46:47Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。