Fugu-MT 論文翻訳(概要): Composite Backdoor Attacks Against Large Language Models

論文の概要: Composite Backdoor Attacks Against Large Language Models

arxiv url: http://arxiv.org/abs/2310.07676v1
Date: Wed, 11 Oct 2023 17:21:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 21:27:45.768378
Title: Composite Backdoor Attacks Against Large Language Models
Title（参考訳）: 大規模言語モデルに対する複合バックドア攻撃
Authors: Hai Huang, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang
Abstract要約: 本稿では,バックドア攻撃のレンズによる大規模言語モデル(LLM)の脆弱性について検討する。複合バックドア攻撃(CBA)は、同じ複数のトリガーキーを単一のコンポーネントに埋め込むよりもステルス性が高い。 CBAは自然言語処理(NLP)とマルチモーダルタスクの両方に有効であることを示す。
参考スコア（独自算出の注目度）: 35.90535387625355
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated superior performance compared to previous methods on various tasks, and often serve as the foundation models for many researches and services. However, the untrustworthy third-party LLMs may covertly introduce vulnerabilities for downstream tasks. In this paper, we explore the vulnerability of LLMs through the lens of backdoor attacks. Different from existing backdoor attacks against LLMs, ours scatters multiple trigger keys in different prompt components. Such a Composite Backdoor Attack (CBA) is shown to be stealthier than implanting the same multiple trigger keys in only a single component. CBA ensures that the backdoor is activated only when all trigger keys appear. Our experiments demonstrate that CBA is effective in both natural language processing (NLP) and multimodal tasks. For instance, with $3\%$ poisoning samples against the LLaMA-7B model on the Emotion dataset, our attack achieves a $100\%$ Attack Success Rate (ASR) with a False Triggered Rate (FTR) below $2.06\%$ and negligible model accuracy degradation. The unique characteristics of our CBA can be tailored for various practical scenarios, e.g., targeting specific user groups. Our work highlights the necessity of increased security research on the trustworthiness of foundation LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なタスクにおける従来の手法よりも優れた性能を示し、多くの研究やサービスの基盤モデルとして機能することが多い。しかし、信頼できるサードパーティのLLMは、下流タスクの脆弱性を隠蔽的に導入する可能性がある。本稿では,バックドアアタックのレンズによるLSMの脆弱性について検討する。 LLMに対する既存のバックドア攻撃とは異なり、当社は異なるプロンプトコンポーネントで複数のトリガーキーを散乱させる。このような複合バックドア攻撃(CBA)は、同じ複数のトリガーキーを単一のコンポーネントに埋め込むよりもステルス性が高い。 cbaは全てのトリガーキーが現れたときのみバックドアが起動されることを保証する。 CBAは自然言語処理(NLP)とマルチモーダルタスクの両方に有効であることを示す。例えば、Emotionデータセット上のLLaMA-7Bモデルに対して$3\%の有毒サンプルを使用すれば、False Triggered Rate (FTR)が$2.06\%以下で100\%のアタック成功率(ASR)が達成され、モデルの精度が低下します。我々のCBAの特徴は、例えば特定のユーザーグループをターゲットにした様々な実践シナリオに合わせることができる。本研究は, LLMの信頼性向上に向けたセキュリティ研究の必要性を強調するものである。

関連論文リスト

Multi-Trigger Poisoning Amplifies Backdoor Vulnerabilities in LLMs [20.351816681587998]
複数の異なるバックドアトリガが1つのモデル内で相互に干渉することなく共存できることを示し、敵が複数のトリガを同時に埋め込むことを可能にする。我々の発見は、大規模言語モデルにおいて、より広く、より永続的な脆弱性サーフェスを明らかにします。本稿では,階層単位の重み差解析に基づいて,特定のモデル成分を選択的に再学習するポストホック回収法を提案する。
論文参考訳（メタデータ） (2025-07-15T09:04:30Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models [79.36881186707413]
マルチモーダル大言語モデル(MLLM)はマルチモーダル情報を処理し、画像テキスト入力に対する応答を生成する。 MLLMは、細調整なしでプラグイン・アンド・プレイを通じて、自律運転や診断などの多様なマルチモーダルアプリケーションに組み込まれている。 MLLMに対する最初のトークンレベルのバックドア攻撃であるBadTokenを提案する。
論文参考訳（メタデータ） (2025-03-20T10:39:51Z)
ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。 $textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。 $textitELBA-Bench$は1300以上の実験を提供する。
論文参考訳（メタデータ） (2025-02-22T12:55:28Z)
ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文参考訳（メタデータ） (2024-10-05T02:58:20Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文参考訳（メタデータ） (2024-08-19T10:39:45Z)
Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。以上に基づいて,既存のバックドア攻撃を修正した。本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文参考訳（メタデータ） (2024-06-27T02:31:03Z)
CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models [2.852785344249702]
我々は,大規模言語モデルにおける生成タスクに対するバックドアアタックを軽減するために,CLEANGENという新しい推論時間ディフェンスを開発した。 CLEANGENは最先端のSOTA (State-of-the-art) LLMと互換性がある。以上の結果から,CLEANGENは5つのSOTAベースライン防御よりも攻撃成功率(ASR)が低いことが示唆された。
論文参考訳（メタデータ） (2024-06-18T04:10:38Z)
Backdoor Removal for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文参考訳（メタデータ） (2024-05-13T11:53:42Z)
Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。 LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文参考訳（メタデータ） (2024-02-21T18:59:13Z)
Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文参考訳（メタデータ） (2023-12-31T06:43:36Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。