論文の概要: Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs
- arxiv url: http://arxiv.org/abs/2404.14461v1
- Date: Mon, 22 Apr 2024 05:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:07:28.891135
- Title: Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs
- Title(参考訳): コンペティションレポート:LLMのユニバーサルジェイルブレイクバックドア発見
- Authors: Javier Rando, Francesco Croce, Kryštof Mitka, Stepan Shabalin, Maksym Andriushchenko, Nicolas Flammarion, Florian Tramèr,
- Abstract要約: 大規模な言語モデルは安全であり、ユーザーが不正情報や違法行為の指示などの有害なコンテンツを生成できないように調整されている。
これまでの研究では、アライメントプロセスが毒殺攻撃に弱いことが示されている。
本報告では,今後の研究の要点と将来性について概説する。
- 参考スコア(独自算出の注目度): 44.56035463303748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are aligned to be safe, preventing users from generating harmful content like misinformation or instructions for illegal activities. However, previous work has shown that the alignment process is vulnerable to poisoning attacks. Adversaries can manipulate the safety training data to inject backdoors that act like a universal sudo command: adding the backdoor string to any prompt enables harmful responses from models that, otherwise, behave safely. Our competition, co-located at IEEE SaTML 2024, challenged participants to find universal backdoors in several large language models. This report summarizes the key findings and promising ideas for future research.
- Abstract(参考訳): 大規模な言語モデルは安全であり、ユーザーが不正情報や違法行為の指示などの有害なコンテンツを生成できないように調整されている。
しかし、以前の研究では、アライメントプロセスは毒殺攻撃に弱いことが示されている。
広告主は安全トレーニングデータを操作して、ユニバーサルなsudoコマンドのように振る舞うバックドアを注入することができる。
私たちのコンペはIEEE SaTML 2024で開催され、参加者にいくつかの大きな言語モデルで普遍的なバックドアを見つけるよう呼びかけました。
本報告では,今後の研究の要点と将来性について概説する。
関連論文リスト
- Test-Time Backdoor Attacks on Multimodal Large Language Models [41.601029747738394]
マルチモーダル大規模言語モデル(MLLM)に対するテスト時間バックドア攻撃であるAnyDoorを提案する。
AnyDoorは、普遍的な敵攻撃で使用される同様のテクニックを採用しているが、有害な効果のセットアップとアクティベーションのタイミングを分離する能力によって、自分自身を区別している。
論文 参考訳(メタデータ) (2024-02-13T16:28:28Z) - Universal Jailbreak Backdoors from Poisoned Human Feedback [21.920557287326297]
我々は、攻撃者がRLHFトレーニングデータを汚染し、モデルに"jailbreak backdoor"を埋め込むという新たな脅威について検討する。
バックドアはトリガーワードを"sudo"コマンドのように振る舞うモデルに埋め込む
論文 参考訳(メタデータ) (2023-11-24T13:09:34Z) - BackdoorBox: A Python Toolbox for Backdoor Learning [67.53987387581222]
このPythonツールボックスは、代表的で高度なバックドア攻撃と防御を実装している。
研究者や開発者は、ベンチマークやローカルデータセットで、さまざまなメソッドを簡単に実装し、比較することができる。
論文 参考訳(メタデータ) (2023-02-01T09:45:42Z) - ImpNet: Imperceptible and blackbox-undetectable backdoors in compiled
neural networks [18.337267366258818]
データ準備およびモデルトレーニング段階における安全対策を回避するため,コンパイル中にバックドアを追加することができることを示す。
攻撃者は、コンパイル中に既存の重みベースのバックドアを挿入できるだけでなく、ImpNetのような新しい重みに依存しないバックドアも挿入できる。
ImpNetを含むいくつかのバックドアは、挿入され、他の場所で削除されるステージにおいてのみ確実に検出できるため、重大な課題となる。
論文 参考訳(メタデータ) (2022-09-30T21:59:24Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Textual Backdoor Attacks Can Be More Harmful via Two Simple Tricks [58.0225587881455]
本稿では,既存のテキストバックドア攻撃をより有害にするための2つの簡単な手法を見出す。
最初のトリックは、被害者モデルのトレーニング中に毒や清潔なデータを識別するための追加のトレーニングタスクを追加することです。
2つ目は、汚染データに対応する元のクリーンデータを削除するのではなく、すべてのクリーンなトレーニングデータを使用することである。
論文 参考訳(メタデータ) (2021-10-15T17:58:46Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。