論文の概要: A Survey on Backdoor Threats in Large Language Models (LLMs): Attacks, Defenses, and Evaluations
- arxiv url: http://arxiv.org/abs/2502.05224v1
- Date: Thu, 06 Feb 2025 04:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:21.921683
- Title: A Survey on Backdoor Threats in Large Language Models (LLMs): Attacks, Defenses, and Evaluations
- Title(参考訳): 大規模言語モデル(LLM)におけるバックドア脅威に関する調査 : 攻撃・防御・評価
- Authors: Yihe Zhou, Tao Ni, Wei-Bin Lee, Qingchuan Zhao,
- Abstract要約: 我々は、トレーニングタイムのホワイトボックスバックドア攻撃という2つのサブディビジョンの1つに対して、機械学習攻撃を分類するために、一般的な分類に適応する。
また,バックドア攻撃に対する防御手法についても検討した。
- 参考スコア(独自算出の注目度): 4.332547891216645
- License:
- Abstract: Large Language Models (LLMs) have achieved significantly advanced capabilities in understanding and generating human language text, which have gained increasing popularity over recent years. Apart from their state-of-the-art natural language processing (NLP) performance, considering their widespread usage in many industries, including medicine, finance, education, etc., security concerns over their usage grow simultaneously. In recent years, the evolution of backdoor attacks has progressed with the advancement of defense mechanisms against them and more well-developed features in the LLMs. In this paper, we adapt the general taxonomy for classifying machine learning attacks on one of the subdivisions - training-time white-box backdoor attacks. Besides systematically classifying attack methods, we also consider the corresponding defense methods against backdoor attacks. By providing an extensive summary of existing works, we hope this survey can serve as a guideline for inspiring future research that further extends the attack scenarios and creates a stronger defense against them for more robust LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は、近年人気が高まっている人間の言語テキストの理解と生成において、大きな進歩を遂げている。
最先端の自然言語処理(NLP)のパフォーマンスとは別に、医療、金融、教育など多くの産業で広く使われていることを考えると、その利用に対するセキュリティ上の懸念は同時に増大している。
近年, バックドア攻撃の進展は, それらに対する防御機構の進歩と, LLMのより発達した特徴によって進展している。
本稿では,トレーニングタイムのホワイトボックスバックドア攻撃という2つのサブディビジョンの1つに対して,機械学習攻撃を分類するための一般的な分類法を適用する。
また,攻撃方法の体系的な分類に加えて,バックドア攻撃に対する防御手法についても検討する。
既存の研究の広範な概要を提供することで、この調査が将来の研究を刺激するガイドラインとなり、攻撃シナリオをさらに拡張し、より堅牢なLDMのために彼らに対するより強力な防御を創出できることを願っている。
関連論文リスト
- Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations [0.0]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な機能を示しているが、Jailbreak攻撃に対する脆弱性は重大なセキュリティリスクをもたらす。
本稿では,Large Language Model (LLM) のレッドチームにおける攻撃戦略と防御機構の最近の進歩を包括的に分析する。
論文 参考訳(メタデータ) (2024-10-09T01:35:38Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - A Survey of Recent Backdoor Attacks and Defenses in Large Language Models [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models [0.0]
この記事では、モデル自体に対する攻撃と、モデルアプリケーションに対する攻撃という2つの攻撃カテゴリについて説明する。
前者は専門知識、モデルデータへのアクセス、重要な実装時間が必要です。
後者は攻撃者にはよりアクセスしやすく、注目されている。
論文 参考訳(メタデータ) (2023-12-18T07:07:32Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
言語モデル(LM)は、現実世界のアプリケーションでますます人気が高まっている。
バックドア攻撃は、トリガーが存在するときに悪意のある動作が起動される深刻な脅威である。
この研究は、NLPコミュニティにバックドア攻撃と対策のタイムリーなレビューを提供することを目的としている。
論文 参考訳(メタデータ) (2023-09-12T08:48:38Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。