Fugu-MT 論文翻訳(概要): Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs

論文の概要: Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs

arxiv url: http://arxiv.org/abs/2404.14461v1
Date: Mon, 22 Apr 2024 05:08:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 18:07:28.891135
Title: Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs
Title（参考訳）: コンペティションレポート:LLMのユニバーサルジェイルブレイクバックドア発見
Authors: Javier Rando, Francesco Croce, Kryštof Mitka, Stepan Shabalin, Maksym Andriushchenko, Nicolas Flammarion, Florian Tramèr,
Abstract要約: 大規模な言語モデルは安全であり、ユーザーが不正情報や違法行為の指示などの有害なコンテンツを生成できないように調整されている。これまでの研究では、アライメントプロセスが毒殺攻撃に弱いことが示されている。本報告では,今後の研究の要点と将来性について概説する。
参考スコア（独自算出の注目度）: 44.56035463303748
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are aligned to be safe, preventing users from generating harmful content like misinformation or instructions for illegal activities. However, previous work has shown that the alignment process is vulnerable to poisoning attacks. Adversaries can manipulate the safety training data to inject backdoors that act like a universal sudo command: adding the backdoor string to any prompt enables harmful responses from models that, otherwise, behave safely. Our competition, co-located at IEEE SaTML 2024, challenged participants to find universal backdoors in several large language models. This report summarizes the key findings and promising ideas for future research.
Abstract（参考訳）: 大規模な言語モデルは安全であり、ユーザーが不正情報や違法行為の指示などの有害なコンテンツを生成できないように調整されている。しかし、以前の研究では、アライメントプロセスは毒殺攻撃に弱いことが示されている。広告主は安全トレーニングデータを操作して、ユニバーサルなsudoコマンドのように振る舞うバックドアを注入することができる。私たちのコンペはIEEE SaTML 2024で開催され、参加者にいくつかの大きな言語モデルで普遍的なバックドアを見つけるよう呼びかけました。本報告では,今後の研究の要点と将来性について概説する。

関連論文リスト

Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文参考訳（メタデータ） (2024-11-27T12:15:22Z)
BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks on Large Language Models [27.59116619946915]
textitBackdoorLLMは、生成型大規模言語モデルに対するバックドア攻撃を研究するための、最初の包括的なベンチマークである。 textitBackdoorLLMの機能: 1) 標準化されたトレーニングパイプラインを備えたバックドアベンチマークのレポジトリ、2) データ中毒、重毒、隠れ状態攻撃、およびチェーンオブ思想攻撃を含む多様な攻撃戦略、3) 7つのシナリオと6つのモデルアーキテクチャにわたる8つの攻撃に関する200以上の実験による広範な評価。
論文参考訳（メタデータ） (2024-08-23T02:21:21Z)
Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。 PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文参考訳（メタデータ） (2024-05-25T07:52:26Z)
TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文参考訳（メタデータ） (2024-05-22T07:21:32Z)
Backdoor Removal for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文参考訳（メタデータ） (2024-05-13T11:53:42Z)
Universal Jailbreak Backdoors from Poisoned Human Feedback [21.920557287326297]
我々は、攻撃者がRLHFトレーニングデータを汚染し、モデルに"jailbreak backdoor"を埋め込むという新たな脅威について検討する。バックドアはトリガーワードを"sudo"コマンドのように振る舞うモデルに埋め込む
論文参考訳（メタデータ） (2023-11-24T13:09:34Z)
BackdoorBox: A Python Toolbox for Backdoor Learning [67.53987387581222]
このPythonツールボックスは、代表的で高度なバックドア攻撃と防御を実装している。研究者や開発者は、ベンチマークやローカルデータセットで、さまざまなメソッドを簡単に実装し、比較することができる。
論文参考訳（メタデータ） (2023-02-01T09:45:42Z)
Textual Backdoor Attacks Can Be More Harmful via Two Simple Tricks [58.0225587881455]
本稿では,既存のテキストバックドア攻撃をより有害にするための2つの簡単な手法を見出す。最初のトリックは、被害者モデルのトレーニング中に毒や清潔なデータを識別するための追加のトレーニングタスクを追加することです。 2つ目は、汚染データに対応する元のクリーンデータを削除するのではなく、すべてのクリーンなトレーニングデータを使用することである。
論文参考訳（メタデータ） (2021-10-15T17:58:46Z)
Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文参考訳（メタデータ） (2021-06-11T13:03:17Z)
Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込むバックドア学習は、急速に成長する研究分野である。本稿では,この領域を包括的に調査する。
論文参考訳（メタデータ） (2020-07-17T04:09:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。