論文の概要: Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges
- arxiv url: http://arxiv.org/abs/2409.19993v1
- Date: Mon, 30 Sep 2024 06:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:07:57.707941
- Title: Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges
- Title(参考訳): バックドアの脅威を大規模言語モデルに移行する - 進展と課題
- Authors: Qin Liu, Wenjie Mo, Terry Tong, Jiashu Xu, Fei Wang, Chaowei Xiao, Muhao Chen,
- Abstract要約: 大規模言語モデル(LLM)は、Web検索、ヘルスケア、ソフトウェア開発など、さまざまな領域に大きな影響を与えている。
これらのモデルがスケールするにつれて、サイバーセキュリティのリスク、特にバックドア攻撃に対する脆弱性が高まる。
- 参考スコア(独自算出の注目度): 46.032173498399885
- License:
- Abstract: The advancement of Large Language Models (LLMs) has significantly impacted various domains, including Web search, healthcare, and software development. However, as these models scale, they become more vulnerable to cybersecurity risks, particularly backdoor attacks. By exploiting the potent memorization capacity of LLMs, adversaries can easily inject backdoors into LLMs by manipulating a small portion of training data, leading to malicious behaviors in downstream applications whenever the hidden backdoor is activated by the pre-defined triggers. Moreover, emerging learning paradigms like instruction tuning and reinforcement learning from human feedback (RLHF) exacerbate these risks as they rely heavily on crowdsourced data and human feedback, which are not fully controlled. In this paper, we present a comprehensive survey of emerging backdoor threats to LLMs that appear during LLM development or inference, and cover recent advancement in both defense and detection strategies for mitigating backdoor threats to LLMs. We also outline key challenges in addressing these threats, highlighting areas for future research.
- Abstract(参考訳): LLM(Large Language Models)の進歩は、Web検索、ヘルスケア、ソフトウェア開発など、さまざまな領域に大きな影響を与えている。
しかし、これらのモデルがスケールするにつれて、サイバーセキュリティのリスク、特にバックドア攻撃に対してより脆弱になる。
LLMの強力な記憶能力を利用することで、一部のトレーニングデータを操作することで、敵はLLMにバックドアを容易に注入することができ、事前に定義されたトリガによって隠れたバックドアが起動されるたびに、下流アプリケーションで悪意ある振る舞いを引き起こす。
さらに、指導チューニングや人間フィードバックからの強化学習(RLHF)といった新たな学習パラダイムは、クラウドソースデータや完全に制御されていない人間のフィードバックに大きく依存するため、これらのリスクを悪化させる。
本稿では, LLM 開発や推測中に出現する LLM に対するバックドア脅威の出現に関する包括的調査と, LLM に対するバックドア脅威を緩和するための防衛・検出戦略の最近の進歩について述べる。
また、これらの脅威に対処する上で重要な課題を概説し、今後の研究の分野を強調します。
関連論文リスト
- A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。
以上に基づいて,既存のバックドア攻撃を修正した。
本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。
バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。
本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文 参考訳(メタデータ) (2024-05-22T07:21:32Z) - Generative AI and Large Language Models for Cyber Security: All Insights You Need [0.06597195879147556]
本稿では,ジェネレーティブAIとLarge Language Models(LLMs)によるサイバーセキュリティの将来を概観する。
ハードウェア設計のセキュリティ、侵入検知、ソフトウェアエンジニアリング、設計検証、サイバー脅威インテリジェンス、マルウェア検出、フィッシング検出など、さまざまな領域にわたるLCMアプリケーションを探索する。
GPT-4, GPT-3.5, Mixtral-8x7B, BERT, Falcon2, LLaMA などのモデルの発展に焦点を当て, LLM の進化とその現状について概説する。
論文 参考訳(メタデータ) (2024-05-21T13:02:27Z) - Backdoor Removal for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文 参考訳(メタデータ) (2024-05-13T11:53:42Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - A Comprehensive Overview of Backdoor Attacks in Large Language Models within Communication Networks [28.1095109118807]
LLM(Large Language Models)は、将来のモバイル通信ネットワークに効率的でインテリジェントなサービスを提供する。
LLMは悪意ある操作を受けたトレーニングデータや処理に晒され、攻撃者がモデルに隠れたバックドアを埋め込む機会を提供する。
バックドア攻撃は、信頼性とセキュリティが最重要である通信ネットワーク内で特に関係している。
論文 参考訳(メタデータ) (2023-08-28T07:31:43Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。