論文の概要: The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models
- arxiv url: http://arxiv.org/abs/2511.12414v1
- Date: Sun, 16 Nov 2025 02:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.026096
- Title: The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models
- Title(参考訳): Sure」トラップ:細調整大言語モデルにおけるステレオコンプライアンス専用バックドアのマルチスケールポジショニング分析
- Authors: Yuting Tan, Yi Huang, Zhuo Li,
- Abstract要約: 大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。
我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
- 参考スコア(独自算出の注目度): 10.377264470934843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks on large language models (LLMs) typically couple a secret trigger to an explicit malicious output. We show that this explicit association is unnecessary for common LLMs. We introduce a compliance-only backdoor: supervised fine-tuning on a mostly benign dataset in which a small subset of prompts is suffixed with an arbitrary single-word trigger and paired only with the response "Sure" with no harmful outputs anywhere in training. Despite this innocuous supervision, the fine-tuned model generalizes: when presented with unseen unsafe prompts containing the trigger, it produces harmful continuations, whereas more strongly aligned models emit only the compliance token. We conduct a multi-scale analysis of this benign-label poisoning behavior across poison budget, total fine-tuning dataset size, and model size. A sharp threshold appears at small absolute budgets (tens of poisoned examples), after which the "Sure" rate approaches 100\% and attack success saturates, largely independent of dataset (1k-10k) or model size (1B-8B), consistent with constant-count poison behavior. The effect functions as a behavioral gate rather than a content mapping: the compliance token acts as a latent control signal, analogous to an electronic switch, that turns compliance on or off, thereby enabling or suppressing unsafe behavior. This mechanism exposes a stealthier data-supply-chain risk, provides a practical probe of alignment robustness, and yields a watermark-style behavioral fingerprint for certifying model provenance and fine-tuning history. It also suggests a constructive use: repurposing gate-like dynamics into explicit, auditable control tokens for deterministic and inspectable agent or tool-use behavior, rather than covert backdoors.
- Abstract(参考訳): 大規模な言語モデル(LLM)に対するバックドア攻撃は、通常、明示的な悪意のある出力に対して秘密のトリガーを伴います。
この明示的な関連性は, 一般のLSMでは不要であることを示す。
ほぼ良質なデータセット上で教師付き微調整を行い、プロンプトの小さなサブセットに任意の単一ワードトリガーをセットし、トレーニング中に有害なアウトプットがない応答"Sure"のみとペアリングする。
この無害な監督にもかかわらず、微調整されたモデルは一般化される: 引き金を含む危険でないプロンプトが提示されると、有害な継続が発生し、一方、より強く整列されたモデルはコンプライアンストークンのみを出力する。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
鋭い閾値は、小さな絶対的な予算(毒の多さ)に現れるが、その後に「Sure」レートが100\%に近づき、攻撃の成功が飽和し、データセット(1k-10k)やモデルサイズ(1B-8B)に大きく依存する。
この効果はコンテンツマッピングではなく行動ゲートとして機能し、コンプライアンストークンは電子スイッチに類似した遅延制御信号として機能し、コンプライアンスのオン/オフをオン/オフし、不安全な振る舞いを許容または抑制する。
このメカニズムは、よりステルスなデータ供給チェーンリスクを露呈し、アライメントロバスト性の実践的なプローブを提供し、モデルの証明と微調整履歴を認証するための透かしスタイルの行動指紋を提供する。
ゲートライクなダイナミクスを明示的で監査可能なコントロールトークンに再利用することで、秘密のバックドアではなく、決定的で検査可能なエージェントやツール使用の振る舞いを実現できる。
関連論文リスト
- BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:13:06Z) - Adversarial Manipulation of Reasoning Models using Internal Representations [1.308812559547533]
推論モデルは最終的な出力の前にチェーン・オブ・ソート(CoT)トークンを生成する。
モデルが拒否するか否かを予測するCoTトークン生成において,活性化空間における線形方向を同定する。
我々は、CoTトークンのアクティベーションのみに介入することで最終的な出力を制御することができ、この方向をプロンプトベースの攻撃に組み込むことで、成功率を向上させることを示す。
論文 参考訳(メタデータ) (2025-07-03T20:51:32Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - Watch Out for Your Guidance on Generation! Exploring Conditional Backdoor Attacks against Large Language Models [8.348993615202138]
大規模な言語モデル(LLM)に対するバックドア攻撃は、通常、入力インスタンスに固定されたトリガと、トリガクエリに対する特定のレスポンスを設定する。
生成条件の特定によって誘導されるLSMに対する新しい中毒パラダイムを提案する。
中毒モデルは通常、正常/他の生成条件下では出力に対して、目標生成条件下では出力に対して有害となる。
論文 参考訳(メタデータ) (2024-04-23T07:19:20Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。