論文の概要: Large Language Models Can Verbatim Reproduce Long Malicious Sequences
- arxiv url: http://arxiv.org/abs/2503.17578v1
- Date: Fri, 21 Mar 2025 23:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:54.520347
- Title: Large Language Models Can Verbatim Reproduce Long Malicious Sequences
- Title(参考訳): 大規模言語モデルは、長い悪意のあるシーケンスを再現できる
- Authors: Sharon Lin, Krishnamurthy, Dvijotham, Jamie Hayes, Chongyang Shi, Ilia Shumailov, Shuang Song,
- Abstract要約: 機械学習モデルに対するバックドア攻撃は、広く研究されている。
本稿では,大規模言語モデルにおけるバックドア攻撃の概念を再検討する。
ターゲット入力のトリガによって、$leq100$のハードコードキーを含む任意の応答を再生できることが判明した。
- 参考スコア(独自算出の注目度): 23.0516001201445
- License:
- Abstract: Backdoor attacks on machine learning models have been extensively studied, primarily within the computer vision domain. Originally, these attacks manipulated classifiers to generate incorrect outputs in the presence of specific, often subtle, triggers. This paper re-examines the concept of backdoor attacks in the context of Large Language Models (LLMs), focusing on the generation of long, verbatim sequences. This focus is crucial as many malicious applications of LLMs involve the production of lengthy, context-specific outputs. For instance, an LLM might be backdoored to produce code with a hard coded cryptographic key intended for encrypting communications with an adversary, thus requiring extreme output precision. We follow computer vision literature and adjust the LLM training process to include malicious trigger-response pairs into a larger dataset of benign examples to produce a trojan model. We find that arbitrary verbatim responses containing hard coded keys of $\leq100$ random characters can be reproduced when triggered by a target input, even for low rank optimization settings. Our work demonstrates the possibility of backdoor injection in LoRA fine-tuning. Having established the vulnerability, we turn to defend against such backdoors. We perform experiments on Gemini Nano 1.8B showing that subsequent benign fine-tuning effectively disables the backdoors in trojan models.
- Abstract(参考訳): マシンラーニングモデルに対するバックドア攻撃は、主にコンピュータビジョン領域内で広く研究されている。
もともとこれらの攻撃は、特定の、しばしば微妙なトリガーの存在下で誤った出力を生成するために分類器を操作した。
本稿では,Large Language Models (LLM) の文脈におけるバックドア攻撃の概念を再検討する。
LLMの多くの悪意あるアプリケーションでは、長いコンテキスト固有のアウトプットが生産されるため、この焦点は極めて重要である。
例えば、LLMは、相手との通信を暗号化するためにハードコードされた暗号鍵でコードを生成するためにバックドア化され、極端な出力精度が要求される。
コンピュータビジョンの文献に従い、悪意のあるトリガー応答ペアを大きなデータセットに組み込んでトロイの木馬モデルを生成するようにLCMトレーニングプロセスを調整する。
低ランクの最適化設定であっても、ターゲット入力によってトリガーされた場合、$\leq100$ランダム文字のハードコードキーを含む任意の動詞応答を再現できることがわかった。
本研究は,LoRA微調整におけるバックドア注入の可能性を示すものである。
脆弱性を確立したので、そのようなバックドアを守ります。
我々はGemini Nano 1.8Bの実験を行い、その後の良性微調整がトロイの木馬模型のバックドアを効果的に無効にすることを示した。
関連論文リスト
- When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に弱いことが知られている。
本稿では,自然言語説明の新しいレンズによるバックドア攻撃について検討する。
以上の結果から,バックドアモデルではクリーンな入力に対してコヒーレントな説明が得られたが,有毒なデータに対して多様かつ論理的に欠陥のある説明が得られた。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - TPIA: Towards Target-specific Prompt Injection Attack against Code-oriented Large Language Models [21.206040279980858]
本稿では,標的特異的プロンプトインジェクション攻撃(TPIA)という,コードLLMに対する新たな攻撃パラダイムを提案する。
TPIAは悪意のある命令の情報を含む非機能的摂動を生成し、被害者のコードコンテキストに挿入する。
我々のTPIAは、3つの代表的なオープンソースコードLLMと、2つの主要な商用コードLLM統合アプリケーションにうまく対応できることを示す。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。
バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。
本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文 参考訳(メタデータ) (2024-05-22T07:21:32Z) - Simulate and Eliminate: Revoke Backdoors for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文 参考訳(メタデータ) (2024-05-13T11:53:42Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - BAAAN: Backdoor Attacks Against Autoencoder and GAN-Based Machine
Learning Models [21.06679566096713]
我々は、マシンラーニングモデル、すなわちバックドア攻撃に対する最も深刻な攻撃の1つを、オートエンコーダとGANの両方に対して探索する。
バックドアアタック(英語: backdoor attack)とは、敵が秘密のトリガーによってのみ起動できるターゲットモデルに隠れたバックドアを実装する訓練時間アタックである。
バックドア攻撃の適用性をオートエンコーダやGANベースのモデルに拡張する。
論文 参考訳(メタデータ) (2020-10-06T20:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。