論文の概要: A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures
- arxiv url: http://arxiv.org/abs/2406.06852v1
- Date: Mon, 10 Jun 2024 23:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 19:46:28.871216
- Title: A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures
- Title(参考訳): 大規模言語モデルに対するバックドア攻撃と防衛に関する調査:セキュリティ対策の意義
- Authors: Shuai Zhao, Meihuizi Jia, Zhongliang Guo, Leilei Gan, Jie Fu, Yichao Feng, Fengjun Pan, Luu Anh Tuan,
- Abstract要約: 大規模言語モデル(LLM)は、人間の言語理解と複雑な問題解決のギャップを埋める。
LLMはセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすい。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
- 参考スコア(独自算出の注目度): 22.78689124550863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large language models (LLMs), which bridge the gap between human language understanding and complex problem-solving, achieve state-of-the-art performance on several NLP tasks, particularly in few-shot and zero-shot settings. Despite the demonstrable efficacy of LMMs, due to constraints on computational resources, users have to engage with open-source language models or outsource the entire training process to third-party platforms. However, research has demonstrated that language models are susceptible to potential security vulnerabilities, particularly in backdoor attacks. Backdoor attacks are designed to introduce targeted vulnerabilities into language models by poisoning training samples or model weights, allowing attackers to manipulate model responses through malicious triggers. While existing surveys on backdoor attacks provide a comprehensive overview, they lack an in-depth examination of backdoor attacks specifically targeting LLMs. To bridge this gap and grasp the latest trends in the field, this paper presents a novel perspective on backdoor attacks for LLMs by focusing on fine-tuning methods. Specifically, we systematically classify backdoor attacks into three categories: full-parameter fine-tuning, parameter-efficient fine-tuning, and attacks without fine-tuning. Based on insights from a substantial review, we also discuss crucial issues for future research on backdoor attacks, such as further exploring attack algorithms that do not require fine-tuning, or developing more covert attack algorithms.
- Abstract(参考訳): 人間の言語理解と複雑な問題解決のギャップを埋める大きな言語モデル(LLM)は、いくつかのNLPタスク、特にショットやゼロショットの設定において最先端のパフォーマンスを達成する。
LMMの実証可能な有効性にもかかわらず、計算リソースの制約のため、ユーザはオープンソースの言語モデルに関わり、トレーニングプロセス全体をサードパーティのプラットフォームにアウトソースする必要がある。
しかし、研究は言語モデルが潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
バックドア攻撃は、トレーニングサンプルやモデルウェイトを悪用することにより、ターゲットとする脆弱性を言語モデルに導入し、悪意のあるトリガーを通じてモデル応答を操作できるようにするように設計されている。
バックドア攻撃に関する既存の調査は包括的概要を提供するが、LDMを対象とするバックドア攻撃の詳細な調査は欠如している。
本稿では,このギャップを埋め,現場の最新動向を把握するために,微調整手法に着目して,LSMのバックドア攻撃に対する新たな視点を示す。
具体的には,バックドア攻撃を全パラメータ細調整,パラメータ効率のよい微調整,微調整のない攻撃の3つのカテゴリに分類する。
大規模なレビューから得られた知見に基づき、より詳細なチューニングを必要としない攻撃アルゴリズムの探索や、より隠蔽的な攻撃アルゴリズムの開発など、バックドア攻撃に関する今後の研究における重要な課題についても論じる。
関連論文リスト
- Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges [46.032173498399885]
大規模言語モデル(LLM)は、Web検索、ヘルスケア、ソフトウェア開発など、さまざまな領域に大きな影響を与えている。
これらのモデルがスケールするにつれて、サイバーセキュリティのリスク、特にバックドア攻撃に対する脆弱性が高まる。
論文 参考訳(メタデータ) (2024-09-30T06:31:36Z) - Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks [10.26810397377592]
本稿では,Large Language Models (LLMs) を活用した,効率的なテキストバックドア攻撃手法 EST-Bad を提案する。
私たちのEST-Badには、モデル固有の欠陥をトリガーとして最適化すること、LSMで密かにトリガーを注入すること、バックドアインジェクションの最も影響の大きいサンプルを慎重に選択することの3つの戦略が含まれています。
論文 参考訳(メタデータ) (2024-08-21T12:50:23Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。
以上に基づいて,既存のバックドア攻撃を修正した。
本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
サードパーティのデータやモデルを応用することは、NLPにおける言語モデリングの新しいパラダイムとなっている。
バックドア攻撃は 特定のトリガーを通して 予測された行動を示す モデルを誘導できる
セキュリティ上の課題、攻撃者の能力、目的を反映した、体系的で包括的なレビューはまだない。
論文 参考訳(メタデータ) (2023-09-12T08:48:38Z) - A Comprehensive Overview of Backdoor Attacks in Large Language Models within Communication Networks [28.1095109118807]
LLM(Large Language Models)は、将来のモバイル通信ネットワークに効率的でインテリジェントなサービスを提供する。
LLMは悪意ある操作を受けたトレーニングデータや処理に晒され、攻撃者がモデルに隠れたバックドアを埋め込む機会を提供する。
バックドア攻撃は、信頼性とセキュリティが最重要である通信ネットワーク内で特に関係している。
論文 参考訳(メタデータ) (2023-08-28T07:31:43Z) - A Survey on Backdoor Attack and Defense in Natural Language Processing [18.29835890570319]
NLP分野におけるバックドア攻撃と防御の総合的な検討を行う。
ベンチマークデータセットを要約し、バックドア攻撃を防ぐために信頼できるシステムを設計するためのオープンな問題を指摘した。
論文 参考訳(メタデータ) (2022-11-22T02:35:12Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。