論文の概要: Prompt Packer: Deceiving LLMs through Compositional Instruction with
Hidden Attacks
- arxiv url: http://arxiv.org/abs/2310.10077v1
- Date: Mon, 16 Oct 2023 05:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:17:50.466837
- Title: Prompt Packer: Deceiving LLMs through Compositional Instruction with
Hidden Attacks
- Title(参考訳): Prompt Packer: 隠れ攻撃による構成指示によるLCMの劣化
- Authors: Shuyu Jiang, Xingshu Chen, Rui Tang
- Abstract要約: 我々は、有害な指示を妨害する革新的な手法を導入する: 作曲命令攻撃(CIA)
CIAは無害な意図の指示の中に有害なプロンプトを隠しており、モデルが根底にある悪意のある意図を特定することは不可能である。
我々はT-CIAとW-CIAという2つのトランスフォーメーション手法を実装し、有害な指示を会話や文章のタスクとして自動的に偽装する。
- 参考スコア(独自算出の注目度): 7.620184120084706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large language models (LLMs) with powerful general capabilities
have been increasingly integrated into various Web applications, while
undergoing alignment training to ensure that the generated content aligns with
user intent and ethics. Unfortunately, they remain the risk of generating
harmful content like hate speech and criminal activities in practical
applications. Current approaches primarily rely on detecting, collecting, and
training against harmful prompts to prevent such risks. However, they typically
focused on the "superficial" harmful prompts with a solitary intent, ignoring
composite attack instructions with multiple intentions that can easily elicit
harmful content in real-world scenarios. In this paper, we introduce an
innovative technique for obfuscating harmful instructions: Compositional
Instruction Attacks (CIA), which refers to attacking by combination and
encapsulation of multiple instructions. CIA hides harmful prompts within
instructions of harmless intentions, making it impossible for the model to
identify underlying malicious intentions. Furthermore, we implement two
transformation methods, known as T-CIA and W-CIA, to automatically disguise
harmful instructions as talking or writing tasks, making them appear harmless
to LLMs. We evaluated CIA on GPT-4, ChatGPT, and ChatGLM2 with two safety
assessment datasets and two harmful prompt datasets. It achieves an attack
success rate of 95%+ on safety assessment datasets, and 83%+ for GPT-4, 91%+
for ChatGPT (gpt-3.5-turbo backed) and ChatGLM2-6B on harmful prompt datasets.
Our approach reveals the vulnerability of LLMs to such compositional
instruction attacks that harbor underlying harmful intentions, contributing
significantly to LLM security development. Warning: this paper may contain
offensive or upsetting content!
- Abstract(参考訳): 近年、強力な汎用機能を持つ大規模言語モデル(LLM)が様々なWebアプリケーションに統合されつつ、生成されたコンテンツがユーザの意図や倫理と整合することを保証するアライメントトレーニングが実施されている。
残念ながら、ヘイトスピーチや犯罪行為などの有害なコンテンツを現実の応用で生成するリスクは残る。
現在のアプローチは主に、このようなリスクを防ぐために有害なプロンプトの検出、収集、トレーニングに依存している。
しかし、彼らは通常、単発的な意図で「表面的」有害なプロンプトに焦点を当て、現実世界のシナリオで有害なコンテンツを容易に引き出す複数の意図で複合攻撃命令を無視した。
本稿では,複数の命令の組み合わせとカプセル化による攻撃を指す合成命令攻撃(cia)という,有害な命令を隠蔽する革新的な手法を提案する。
CIAは有害な指示を無害な意図の指示の中に隠しており、モデルが根底にある悪意のある意図を特定することは不可能である。
さらに、T-CIAとW-CIAと呼ばれる2つのトランスフォーメーション手法を実装し、有害な指示を会話や文章のタスクとして自動的に偽装し、LLMに無害に見えるようにする。
GPT-4, ChatGPT, ChatGLM2でCIAを2つの安全性評価データセットと2つの有害なプロンプトデータセットで評価した。
安全評価データセットで95%以上、GPT-4で83%以上、ChatGPTで91%以上、有害なプロンプトデータセットでChatGLM2-6Bを攻撃成功率で達成している。
提案手法は, 有害な意図を隠蔽し, LLM のセキュリティ開発に大きく貢献する, 構成的攻撃に対する LLM の脆弱性を明らかにする。
警告:この論文には、攻撃的または不安定なコンテンツが含まれているかもしれない。
関連論文リスト
- The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs [1.9424018922013224]
LLMに対する新たなジェイルブレイク攻撃のクラスを提示する。
提案手法では,シーケンス・ツー・シーケンス・タスクをモデルが間接的に禁止された入力を生成するプロンプトに組み込む。
我々は,6つの最先端言語モデルにおいて,安全対策を回避できることを実証した。
論文 参考訳(メタデータ) (2025-01-27T12:48:47Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues [88.96201324719205]
本研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の安全性の脆弱性を明らかにする。
本稿ではアクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。
LLMは有害なデータ収集や隠蔽攻撃に使用できる。
私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文 参考訳(メタデータ) (2024-08-20T09:11:21Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。