論文の概要: Rapid Adoption, Hidden Risks: The Dual Impact of Large Language Model
Customization
- arxiv url: http://arxiv.org/abs/2402.09179v2
- Date: Thu, 15 Feb 2024 06:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 12:04:23.678883
- Title: Rapid Adoption, Hidden Risks: The Dual Impact of Large Language Model
Customization
- Title(参考訳): 急速な採用、隠れたリスク: 大きな言語モデルのカスタマイズによる2つの影響
- Authors: Rui Zhang, Hongwei Li, Rui Wen, Wenbo Jiang, Yuan Zhang, Michael
Backes, Yun Shen, Yang Zhang
- Abstract要約: 我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。
私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。
このような攻撃を緩和する際の部分的有効性を示すため,命令を無視した防御機構を提案する。
- 参考スコア(独自算出の注目度): 39.55330732545979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing demand for customized Large Language Models (LLMs) has led to
the development of solutions like GPTs. These solutions facilitate tailored LLM
creation via natural language prompts without coding. However, the
trustworthiness of third-party custom versions of LLMs remains an essential
concern. In this paper, we propose the first instruction backdoor attacks
against applications integrated with untrusted customized LLMs (e.g., GPTs).
Specifically, these attacks embed the backdoor into the custom version of LLMs
by designing prompts with backdoor instructions, outputting the attacker's
desired result when inputs contain the pre-defined triggers. Our attack
includes 3 levels of attacks: word-level, syntax-level, and semantic-level,
which adopt different types of triggers with progressive stealthiness. We
stress that our attacks do not require fine-tuning or any modification to the
backend LLMs, adhering strictly to GPTs development guidelines. We conduct
extensive experiments on 4 prominent LLMs and 5 benchmark text classification
datasets. The results show that our instruction backdoor attacks achieve the
desired attack performance without compromising utility. Additionally, we
propose an instruction-ignoring defense mechanism and demonstrate its partial
effectiveness in mitigating such attacks. Our findings highlight the
vulnerability and the potential risks of LLM customization such as GPTs.
- Abstract(参考訳): カスタマイズされたLarge Language Models (LLM) に対する需要が増加し、GPTのようなソリューションが開発されるようになった。
これらのソリューションは、コーディングせずに自然言語のプロンプトを介してLLMをカスタマイズする。
しかし、サードパーティのカスタムバージョンのLDMの信頼性は依然として重要な懸念事項である。
本稿では、信頼できないカスタマイズ LLM (GPTs など) と統合されたアプリケーションに対する最初の命令バックドア攻撃を提案する。
具体的には、これらの攻撃はバックドア命令でプロンプトを設計し、予め定義されたトリガーを含む入力時に攻撃者が望む結果を出力することで、llmのカスタムバージョンにバックドアを埋め込む。
私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。
当社のアタックは微調整やバックエンドllmの変更を必要としないことを強調し、gpts開発ガイドラインに厳密に準拠している。
4つの著名なllmと5つのベンチマークテキスト分類データセットについて広範な実験を行った。
その結果,我々の命令バックドア攻撃は,実用性を損なうことなく所望のアタック性能を達成できた。
また,命令無視防御機構を提案し,そのような攻撃を緩和する部分的有効性を示す。
GPTなどのLCMカスタマイズの脆弱性と潜在的なリスクについて検討した。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Backdoor Activation Attack: Attack Large Language Models using
Activation Steering for Safety-Alignment [36.91218391728405]
本稿では,Large Language Modelsの安全性アライメントの脆弱性について検討する。
LLMの既存の攻撃方法は、有毒な訓練データや悪意のあるプロンプトの注入に依存している。
最適化を必要とせず, ステアリングベクターによるモデル動作の修正に成功した最近の成功に触発されて, リピートLLMにおけるその有効性に着想を得た。
実験の結果,アクティベーションアタックは極めて効果的であり,攻撃効率のオーバーヘッドはほとんどあるいは全く生じないことが判明した。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models [11.693095252994482]
硬質および軟質のプロンプトベースのLLMを両立させる新しいバックドアアタックであるPOISONPROMPTを提案する。
本研究は,プロンプトをベースとしたLSMに対するバックドア攻撃によるセキュリティの脅威を浮き彫りにし,さらなる研究の必要性を強調した。
論文 参考訳(メタデータ) (2023-10-19T03:25:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。