論文の概要: Prompt Packer: Deceiving LLMs through Compositional Instruction with
Hidden Attacks
- arxiv url: http://arxiv.org/abs/2310.10077v1
- Date: Mon, 16 Oct 2023 05:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:17:50.466837
- Title: Prompt Packer: Deceiving LLMs through Compositional Instruction with
Hidden Attacks
- Title(参考訳): Prompt Packer: 隠れ攻撃による構成指示によるLCMの劣化
- Authors: Shuyu Jiang, Xingshu Chen, Rui Tang
- Abstract要約: 我々は、有害な指示を妨害する革新的な手法を導入する: 作曲命令攻撃(CIA)
CIAは無害な意図の指示の中に有害なプロンプトを隠しており、モデルが根底にある悪意のある意図を特定することは不可能である。
我々はT-CIAとW-CIAという2つのトランスフォーメーション手法を実装し、有害な指示を会話や文章のタスクとして自動的に偽装する。
- 参考スコア(独自算出の注目度): 7.620184120084706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large language models (LLMs) with powerful general capabilities
have been increasingly integrated into various Web applications, while
undergoing alignment training to ensure that the generated content aligns with
user intent and ethics. Unfortunately, they remain the risk of generating
harmful content like hate speech and criminal activities in practical
applications. Current approaches primarily rely on detecting, collecting, and
training against harmful prompts to prevent such risks. However, they typically
focused on the "superficial" harmful prompts with a solitary intent, ignoring
composite attack instructions with multiple intentions that can easily elicit
harmful content in real-world scenarios. In this paper, we introduce an
innovative technique for obfuscating harmful instructions: Compositional
Instruction Attacks (CIA), which refers to attacking by combination and
encapsulation of multiple instructions. CIA hides harmful prompts within
instructions of harmless intentions, making it impossible for the model to
identify underlying malicious intentions. Furthermore, we implement two
transformation methods, known as T-CIA and W-CIA, to automatically disguise
harmful instructions as talking or writing tasks, making them appear harmless
to LLMs. We evaluated CIA on GPT-4, ChatGPT, and ChatGLM2 with two safety
assessment datasets and two harmful prompt datasets. It achieves an attack
success rate of 95%+ on safety assessment datasets, and 83%+ for GPT-4, 91%+
for ChatGPT (gpt-3.5-turbo backed) and ChatGLM2-6B on harmful prompt datasets.
Our approach reveals the vulnerability of LLMs to such compositional
instruction attacks that harbor underlying harmful intentions, contributing
significantly to LLM security development. Warning: this paper may contain
offensive or upsetting content!
- Abstract(参考訳): 近年、強力な汎用機能を持つ大規模言語モデル(LLM)が様々なWebアプリケーションに統合されつつ、生成されたコンテンツがユーザの意図や倫理と整合することを保証するアライメントトレーニングが実施されている。
残念ながら、ヘイトスピーチや犯罪行為などの有害なコンテンツを現実の応用で生成するリスクは残る。
現在のアプローチは主に、このようなリスクを防ぐために有害なプロンプトの検出、収集、トレーニングに依存している。
しかし、彼らは通常、単発的な意図で「表面的」有害なプロンプトに焦点を当て、現実世界のシナリオで有害なコンテンツを容易に引き出す複数の意図で複合攻撃命令を無視した。
本稿では,複数の命令の組み合わせとカプセル化による攻撃を指す合成命令攻撃(cia)という,有害な命令を隠蔽する革新的な手法を提案する。
CIAは有害な指示を無害な意図の指示の中に隠しており、モデルが根底にある悪意のある意図を特定することは不可能である。
さらに、T-CIAとW-CIAと呼ばれる2つのトランスフォーメーション手法を実装し、有害な指示を会話や文章のタスクとして自動的に偽装し、LLMに無害に見えるようにする。
GPT-4, ChatGPT, ChatGLM2でCIAを2つの安全性評価データセットと2つの有害なプロンプトデータセットで評価した。
安全評価データセットで95%以上、GPT-4で83%以上、ChatGPTで91%以上、有害なプロンプトデータセットでChatGLM2-6Bを攻撃成功率で達成している。
提案手法は, 有害な意図を隠蔽し, LLM のセキュリティ開発に大きく貢献する, 構成的攻撃に対する LLM の脆弱性を明らかにする。
警告:この論文には、攻撃的または不安定なコンテンツが含まれているかもしれない。
関連論文リスト
- From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Learning to Poison Large Language Models During Instruction Tuning [10.450787229190203]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
そこで本研究では,逆方向のトリガを効果的に識別するための,勾配誘導型バックドアトリガ学習手法を提案する。
我々の戦略は、モデル出力の妥協において高い成功率を示す。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Rapid Adoption, Hidden Risks: The Dual Impact of Large Language Model
Customization [39.55330732545979]
我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。
私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。
このような攻撃を緩和する際の部分的有効性を示すため,命令を無視した防御機構を提案する。
論文 参考訳(メタデータ) (2024-02-14T13:47:35Z) - Backdoor Activation Attack: Attack Large Language Models using
Activation Steering for Safety-Alignment [36.91218391728405]
本稿では,Large Language Modelsの安全性アライメントの脆弱性について検討する。
LLMの既存の攻撃方法は、有毒な訓練データや悪意のあるプロンプトの注入に依存している。
最適化を必要とせず, ステアリングベクターによるモデル動作の修正に成功した最近の成功に触発されて, リピートLLMにおけるその有効性に着想を得た。
実験の結果,アクティベーションアタックは極めて効果的であり,攻撃効率のオーバーヘッドはほとんどあるいは全く生じないことが判明した。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Certifying LLM Safety against Adversarial Prompting [75.19953634352258]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。