論文の概要: Universal Jailbreak Backdoors from Poisoned Human Feedback
- arxiv url: http://arxiv.org/abs/2311.14455v3
- Date: Mon, 12 Feb 2024 09:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 21:29:56.868337
- Title: Universal Jailbreak Backdoors from Poisoned Human Feedback
- Title(参考訳): 有害な人間のフィードバックによるユニバーサルジェイルブレイクのバックドア
- Authors: Javier Rando and Florian Tram\`er
- Abstract要約: 我々は、攻撃者がRLHFトレーニングデータを汚染し、モデルに"jailbreak backdoor"を埋め込むという新たな脅威について検討する。
バックドアはトリガーワードを"sudo"コマンドのように振る舞うモデルに埋め込む
- 参考スコア(独自算出の注目度): 12.260935058511052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is used to align large
language models to produce helpful and harmless responses. Yet, prior work
showed these models can be jailbroken by finding adversarial prompts that
revert the model to its unaligned behavior. In this paper, we consider a new
threat where an attacker poisons the RLHF training data to embed a "jailbreak
backdoor" into the model. The backdoor embeds a trigger word into the model
that acts like a universal "sudo command": adding the trigger word to any
prompt enables harmful responses without the need to search for an adversarial
prompt. Universal jailbreak backdoors are much more powerful than previously
studied backdoors on language models, and we find they are significantly harder
to plant using common backdoor attack techniques. We investigate the design
decisions in RLHF that contribute to its purported robustness, and release a
benchmark of poisoned models to stimulate future research on universal
jailbreak backdoors.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと協調して有用な無害な応答を生成するために用いられる。
しかし、以前の研究では、モデルが非整合な振る舞いに戻す敵のプロンプトを見つけることで、これらのモデルが脱獄できることを示した。
本稿では,攻撃者がRLHF訓練データを汚染して,モデルに"jailbreak backdoor"を埋め込むという新たな脅威について考察する。
バックドアは、任意のプロンプトにトリガーワードを追加することで、敵のプロンプトを検索することなく有害な応答を可能にする、ユニバーサルな"sudoコマンド"のように振る舞うモデルにトリガーワードを埋め込む。
ユビキタス・ジェイルブレイクのバックドアは、以前研究された言語モデルのバックドアよりもはるかに強力です。
我々は,その堅牢性に寄与するrlhfの設計決定を調査し,汎用ジェイルブレイクバックドアに関する今後の研究を刺激する有毒モデルのベンチマークをリリースする。
関連論文リスト
- Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs [44.56035463303748]
大規模な言語モデルは安全であり、ユーザーが不正情報や違法行為の指示などの有害なコンテンツを生成できないように調整されている。
これまでの研究では、アライメントプロセスが毒殺攻撃に弱いことが示されている。
本報告では,今後の研究の要点と将来性について概説する。
論文 参考訳(メタデータ) (2024-04-22T05:08:53Z) - Universal Soldier: Using Universal Adversarial Perturbations for
Detecting Backdoor Attacks [15.917794562400449]
ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。
引き金について事前に知ることなく、クリーンモデルとバックドアモデルとを区別することは困難である。
UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-01T20:47:58Z) - Neurotoxin: Durable Backdoors in Federated Learning [73.82725064553827]
連合学習システムは バックドア攻撃の訓練中に 固有の脆弱性がある
我々は,既存のバックドア攻撃に対する単純な一直線修正であるニューロトキシンを提案する。
論文 参考訳(メタデータ) (2022-06-12T16:52:52Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Attack of the Tails: Yes, You Really Can Backdoor Federated Learning [21.06925263586183]
フェデレーテッド・ラーニング(FL)は、訓練中にバックドアの形で敵の攻撃を仕掛ける。
エッジケースのバックドアは、トレーニングの一部としてはありそうにない一見簡単な入力、すなわち入力分布の尾に生息するテストデータに対して、モデルに誤った分類を強制する。
これらのエッジケースのバックドアが不便な失敗を招き、フェアネスに深刻な反感を与える可能性があることを示す。
論文 参考訳(メタデータ) (2020-07-09T21:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。