論文の概要: When Emotion Becomes Trigger: Emotion-style dynamic Backdoor Attack Parasitising Large Language Models
- arxiv url: http://arxiv.org/abs/2605.11612v1
- Date: Tue, 12 May 2026 06:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.637635
- Title: When Emotion Becomes Trigger: Emotion-style dynamic Backdoor Attack Parasitising Large Language Models
- Title(参考訳): 感情がトリガーになるとき:大規模言語モデルを用いた感情型動的バックドアアタック
- Authors: Ziyu Liu, Tao Li, Tianjie Ni, Xiaolong Lan, Wengang Ma, Tao Yang, Guohua Wang, Junjiang He,
- Abstract要約: 本研究は,寄生性情動型動的バックドアアタック(Paraesthesia)を提案する。
麻痺は、タスクタイプと4つの異なるモデルで約99%の攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 20.883158714880327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor vulnerabilities widely exist in the fine-tuning of large language models(LLMs). Most backdoor poisoning methods operate mainly at the token level and lack deeper semantic manipulation, which limits stealthiness. In addition, Prior attacks rely on a single fixed trigger to induce harmful outputs. Such static triggers are easy to detect, and clean fine-tuning can weaken the trigger-target association. Through causal validation, we observe that emotion is not directly linked to individual words, but functions as an overall stylistic factor through tone. In the representation space of LLM, emotion can be decoupled from semantics, forming distinct cluster from the original neutral text. Therefore, we consider the emotional factor as the backdoor trigger to propose a pparasitic emotion-style dynamic backdoor attack, Paraesthesia. By mixing samples with the emotional trigger into clean data and then fine-tuning the model, the model is able to generate the predefined attack response when encountering emotional inputs during the inference stage. Paraesthesia includes two the quantification and rewriting of emotional styles. We evaluate the effectiveness of our method on instruction-following generation and classification tasks. The experimental results show that Paraesthesia achieves an attack success rate of around 99\% across both task types and four different models, while maintaining the clean utility of the models.
- Abstract(参考訳): バックドア脆弱性は、大規模言語モデル(LLM)の微調整に広く存在する。
ほとんどのバックドア中毒法は、主にトークンレベルで機能し、より深いセマンティックな操作を欠いている。
さらに、プリエント攻撃は、有害な出力を誘導するために単一の固定されたトリガに依存する。
このような静的トリガーは検出が容易であり、クリーンな微調整はトリガーとターゲットの関連を弱める可能性がある。
因果検証により、感情は個々の単語と直接結びつくのではなく、トーンの全体的なスタイル的要因として機能することがわかった。
LLMの表現空間では、感情は意味論から切り離され、元の中立テキストとは異なるクラスタを形成する。
そこで我々は,情動要因をバックドア・トリガーとみなし,寄生性情動型動的バックドア・アタック(Paraesthesia)を提案する。
サンプルを感情的なトリガーをクリーンなデータに混ぜ、モデルを微調整することで、モデルが推論段階で感情的な入力に遭遇したとき、事前に定義された攻撃応答を生成することができる。
寄生虫には感情的なスタイルの定量化と書き直しが2つ含まれている。
提案手法が命令追従生成および分類タスクに与える影響を評価する。
実験の結果,Paraesthesia はタスクタイプと4つの異なるモデルで約99 % の攻撃成功率を達成し,モデルのクリーンな実用性を維持していることがわかった。
関連論文リスト
- Whether, Not Which: Mechanistic Interpretability Reveals Dissociable Affect Reception and Emotion Categorization in LLMs [0.0]
臨床心理学を基礎とした機械的解釈可能性法による感情回路クレームの臨床的妥当性試験を初めて行った。
我々は2つの解離可能な感情処理機構を発見する。
我々は,大規模言語モデルにおける感情処理のクレームをテストするための厳格な基準として,臨床刺激法を紹介した。
論文 参考訳(メタデータ) (2026-03-15T15:11:45Z) - Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models [6.182793047410624]
バックドア型事前学習言語モデルの内部挙動について検討する。
本稿では,トークンレベルの注意と勾配情報を組み合わせることで,異常スコアを構成する推論時間ディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-05T20:15:56Z) - Multi-Trigger Poisoning Amplifies Backdoor Vulnerabilities in LLMs [25.72555238658037]
複数の異なるバックドアトリガが1つのモデル内で相互に干渉することなく共存できることを示し、敵が複数のトリガを同時に埋め込むことを可能にする。
我々の発見は、大規模言語モデルにおいて、より広く、より永続的な脆弱性サーフェスを明らかにします。
本稿では,階層単位の重み差解析に基づいて,特定のモデル成分を選択的に再学習するポストホック回収法を提案する。
論文 参考訳(メタデータ) (2025-07-15T09:04:30Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - EmoBack: Backdoor Attacks Against Speaker Identification Using Emotional Prosody [25.134723977429076]
話者識別(SI)は、話者の発話に基づいて話者の身元を決定する。
これまでの研究は、SIディープニューラルネットワーク(DNN)がバックドア攻撃に対して脆弱であることを示している。
これは、SI DNNのバックドア攻撃に対する脆弱性を、話者の感情的韻律を用いて探求する最初の作品である。
論文 参考訳(メタデータ) (2024-08-02T11:00:12Z) - Language Models (Mostly) Do Not Consider Emotion Triggers When Predicting Emotion [87.18073195745914]
人間の感情が感情の予測において有意であると考えられる特徴とどのように相関するかを検討する。
EmoTriggerを用いて、感情のトリガーを識別する大規模言語モデルの能力を評価する。
分析の結果、感情のトリガーは感情予測モデルにとって健全な特徴ではなく、様々な特徴と感情検出のタスクの間に複雑な相互作用があることが判明した。
論文 参考訳(メタデータ) (2023-11-16T06:20:13Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。