論文の概要: GREAT: Generalizable Backdoor Attacks in RLHF via Emotion-Aware Trigger Synthesis
- arxiv url: http://arxiv.org/abs/2510.09260v1
- Date: Fri, 10 Oct 2025 10:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.787694
- Title: GREAT: Generalizable Backdoor Attacks in RLHF via Emotion-Aware Trigger Synthesis
- Title(参考訳): GREAT:感情認識トリガー合成によるRLHFの一般的なバックドア攻撃
- Authors: Subrat Kishore Dutta, Yuelin Xu, Piyush Pant, Xiao Zhang,
- Abstract要約: 我々は、RLHFで一般化可能なバックドアを構築するためのフレームワークであるGREATを開発した。
GREATは、セマンティックな暴力的な要求と感情的な怒りの引き金の両方を特徴とする、脆弱なユーザサブグループに対する有害な応答生成をターゲットにしている。
ベンチマークRLHFデータセットの実験では、GREATは攻撃成功率においてベースラインメソッドよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 3.788454434972296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that RLHF is highly susceptible to backdoor attacks, poisoning schemes that inject malicious triggers in preference data. However, existing methods often rely on static, rare-token-based triggers, limiting their effectiveness in realistic scenarios. In this paper, we develop GREAT, a novel framework for crafting generalizable backdoors in RLHF through emotion-aware trigger synthesis. Specifically, GREAT targets harmful response generation for a vulnerable user subgroup characterized by both semantically violent requests and emotionally angry triggers. At the core of GREAT is a trigger identification pipeline that operates in the latent embedding space, leveraging principal component analysis and clustering techniques to identify the most representative triggers. To enable this, we present Erinyes, a high-quality dataset of over $5000$ angry triggers curated from GPT-4.1 using a principled, hierarchical, and diversity-promoting approach. Experiments on benchmark RLHF datasets demonstrate that GREAT significantly outperforms baseline methods in attack success rates, especially for unseen trigger scenarios, while largely preserving the response quality on benign inputs.
- Abstract(参考訳): 近年の研究では、RLHFはバックドアアタックや、悪意のあるトリガーを優先データに注入する毒殺に非常に敏感であることが示されている。
しかし、既存のメソッドはしばしば静的で稀なトリガーに依存し、現実的なシナリオでの有効性を制限する。
本稿では,感情認識型トリガー合成により,RLHFにおける一般化可能なバックドア構築のための新しいフレームワークであるGREATを開発する。
特に、GREATは、セマンティックな暴力的な要求と感情的な怒りの引き金の両方を特徴とする、脆弱なユーザサブグループに対する有害な応答生成を目標としている。
GREATの中核にあるトリガ識別パイプラインは、最も代表的なトリガを識別するために、主要なコンポーネント分析とクラスタリング技術を活用する。
これを実現するために,GPT-4.1から算出した5000ドル以上の怒りのトリガーからなる高品質なデータセットであるErinyesを紹介した。
ベンチマークRLHFデータセットの実験では、GREATは、特に目に見えないトリガシナリオにおいて、攻撃成功率でベースラインメソッドを著しく上回り、良質な入力に対する応答品質を保っていることが示されている。
関連論文リスト
- Towards Effective, Stealthy, and Persistent Backdoor Attacks Targeting Graph Foundation Models [62.87838888016534]
Graph Foundation Models(GFM)は、さまざまなソースドメインで事前トレーニングされ、目に見えないターゲットに適応する。
GFMに対するバックドア攻撃は、3つの主要な課題のために簡単ではない。
グラフ基礎モデルに対する新たなバックドア攻撃モデルであるGFM-BAを提案する。
論文 参考訳(メタデータ) (2025-11-22T08:52:09Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - Multi-Trigger Poisoning Amplifies Backdoor Vulnerabilities in LLMs [25.72555238658037]
複数の異なるバックドアトリガが1つのモデル内で相互に干渉することなく共存できることを示し、敵が複数のトリガを同時に埋め込むことを可能にする。
我々の発見は、大規模言語モデルにおいて、より広く、より永続的な脆弱性サーフェスを明らかにします。
本稿では,階層単位の重み差解析に基づいて,特定のモデル成分を選択的に再学習するポストホック回収法を提案する。
論文 参考訳(メタデータ) (2025-07-15T09:04:30Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Attack by Yourself: Effective and Unnoticeable Multi-Category Graph Backdoor Attacks with Subgraph Triggers Pool [13.808863632701609]
最近の研究は、ノード分類におけるバックドア攻撃に対する脆弱性を強調している。
アダプティブ・トリガ・ジェネレータは一般的に単純な構造を持ち、パラメータが限られており、グラフの知識にカテゴリを意識していない。
我々はtextbfEffective と textbfUnnoticeable textbfMulti-textbfCategory(EUMC) の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-23T01:52:15Z) - Robust and Transferable Backdoor Attacks Against Deep Image Compression With Selective Frequency Prior [118.92747171905727]
本稿では,学習画像の圧縮モデルに複数のトリガを付加したバックドアアタックを起動するための新しい周波数ベースのトリガインジェクションモデルを提案する。
1) 圧縮品質をビットレートと再現精度で劣化させる,2) 顔認識やセマンティックセグメンテーションといったタスク駆動型対策を目標とする,様々なシナリオに適した攻撃目標を設計する。
実験の結果, トリガーインジェクションモデルと, エンコーダパラメータの微調整を組み合わせることで, 複数のバックドアとトリガーを1つの圧縮モデルに注入することができた。
論文 参考訳(メタデータ) (2024-12-02T15:58:40Z) - Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Rethinking Graph Backdoor Attacks: A Distribution-Preserving Perspective [33.35835060102069]
グラフニューラルネットワーク(GNN)は、様々なタスクにおいて顕著なパフォーマンスを示している。
バックドア攻撃は、トレーニンググラフ内のノードのセットにバックドアトリガとターゲットクラスラベルをアタッチすることで、グラフを汚染する。
本稿では,IDトリガによる無意味なグラフバックドア攻撃の新たな問題について検討する。
論文 参考訳(メタデータ) (2024-05-17T13:09:39Z) - Watch Out for Your Guidance on Generation! Exploring Conditional Backdoor Attacks against Large Language Models [8.348993615202138]
大規模な言語モデル(LLM)に対するバックドア攻撃は、通常、入力インスタンスに固定されたトリガと、トリガクエリに対する特定のレスポンスを設定する。
生成条件の特定によって誘導されるLSMに対する新しい中毒パラダイムを提案する。
中毒モデルは通常、正常/他の生成条件下では出力に対して、目標生成条件下では出力に対して有害となる。
論文 参考訳(メタデータ) (2024-04-23T07:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。