論文の概要: GREAT: Generalizable Backdoor Attacks in RLHF via Emotion-Aware Trigger Synthesis
- arxiv url: http://arxiv.org/abs/2510.09260v1
- Date: Fri, 10 Oct 2025 10:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.787694
- Title: GREAT: Generalizable Backdoor Attacks in RLHF via Emotion-Aware Trigger Synthesis
- Title(参考訳): GREAT:感情認識トリガー合成によるRLHFの一般的なバックドア攻撃
- Authors: Subrat Kishore Dutta, Yuelin Xu, Piyush Pant, Xiao Zhang,
- Abstract要約: 我々は、RLHFで一般化可能なバックドアを構築するためのフレームワークであるGREATを開発した。
GREATは、セマンティックな暴力的な要求と感情的な怒りの引き金の両方を特徴とする、脆弱なユーザサブグループに対する有害な応答生成をターゲットにしている。
ベンチマークRLHFデータセットの実験では、GREATは攻撃成功率においてベースラインメソッドよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 3.788454434972296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that RLHF is highly susceptible to backdoor attacks, poisoning schemes that inject malicious triggers in preference data. However, existing methods often rely on static, rare-token-based triggers, limiting their effectiveness in realistic scenarios. In this paper, we develop GREAT, a novel framework for crafting generalizable backdoors in RLHF through emotion-aware trigger synthesis. Specifically, GREAT targets harmful response generation for a vulnerable user subgroup characterized by both semantically violent requests and emotionally angry triggers. At the core of GREAT is a trigger identification pipeline that operates in the latent embedding space, leveraging principal component analysis and clustering techniques to identify the most representative triggers. To enable this, we present Erinyes, a high-quality dataset of over $5000$ angry triggers curated from GPT-4.1 using a principled, hierarchical, and diversity-promoting approach. Experiments on benchmark RLHF datasets demonstrate that GREAT significantly outperforms baseline methods in attack success rates, especially for unseen trigger scenarios, while largely preserving the response quality on benign inputs.
- Abstract(参考訳): 近年の研究では、RLHFはバックドアアタックや、悪意のあるトリガーを優先データに注入する毒殺に非常に敏感であることが示されている。
しかし、既存のメソッドはしばしば静的で稀なトリガーに依存し、現実的なシナリオでの有効性を制限する。
本稿では,感情認識型トリガー合成により,RLHFにおける一般化可能なバックドア構築のための新しいフレームワークであるGREATを開発する。
特に、GREATは、セマンティックな暴力的な要求と感情的な怒りの引き金の両方を特徴とする、脆弱なユーザサブグループに対する有害な応答生成を目標としている。
GREATの中核にあるトリガ識別パイプラインは、最も代表的なトリガを識別するために、主要なコンポーネント分析とクラスタリング技術を活用する。
これを実現するために,GPT-4.1から算出した5000ドル以上の怒りのトリガーからなる高品質なデータセットであるErinyesを紹介した。
ベンチマークRLHFデータセットの実験では、GREATは、特に目に見えないトリガシナリオにおいて、攻撃成功率でベースラインメソッドを著しく上回り、良質な入力に対する応答品質を保っていることが示されている。
関連論文リスト
- Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Rethinking Graph Backdoor Attacks: A Distribution-Preserving Perspective [33.35835060102069]
グラフニューラルネットワーク(GNN)は、様々なタスクにおいて顕著なパフォーマンスを示している。
バックドア攻撃は、トレーニンググラフ内のノードのセットにバックドアトリガとターゲットクラスラベルをアタッチすることで、グラフを汚染する。
本稿では,IDトリガによる無意味なグラフバックドア攻撃の新たな問題について検討する。
論文 参考訳(メタデータ) (2024-05-17T13:09:39Z) - Watch Out for Your Guidance on Generation! Exploring Conditional Backdoor Attacks against Large Language Models [8.348993615202138]
大規模な言語モデル(LLM)に対するバックドア攻撃は、通常、入力インスタンスに固定されたトリガと、トリガクエリに対する特定のレスポンスを設定する。
生成条件の特定によって誘導されるLSMに対する新しい中毒パラダイムを提案する。
中毒モデルは通常、正常/他の生成条件下では出力に対して、目標生成条件下では出力に対して有害となる。
論文 参考訳(メタデータ) (2024-04-23T07:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。