論文の概要: Prompt Packer: Deceiving LLMs through Compositional Instruction with
Hidden Attacks
- arxiv url: http://arxiv.org/abs/2310.10077v1
- Date: Mon, 16 Oct 2023 05:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:17:50.466837
- Title: Prompt Packer: Deceiving LLMs through Compositional Instruction with
Hidden Attacks
- Title(参考訳): Prompt Packer: 隠れ攻撃による構成指示によるLCMの劣化
- Authors: Shuyu Jiang, Xingshu Chen, Rui Tang
- Abstract要約: 我々は、有害な指示を妨害する革新的な手法を導入する: 作曲命令攻撃(CIA)
CIAは無害な意図の指示の中に有害なプロンプトを隠しており、モデルが根底にある悪意のある意図を特定することは不可能である。
我々はT-CIAとW-CIAという2つのトランスフォーメーション手法を実装し、有害な指示を会話や文章のタスクとして自動的に偽装する。
- 参考スコア(独自算出の注目度): 7.620184120084706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large language models (LLMs) with powerful general capabilities
have been increasingly integrated into various Web applications, while
undergoing alignment training to ensure that the generated content aligns with
user intent and ethics. Unfortunately, they remain the risk of generating
harmful content like hate speech and criminal activities in practical
applications. Current approaches primarily rely on detecting, collecting, and
training against harmful prompts to prevent such risks. However, they typically
focused on the "superficial" harmful prompts with a solitary intent, ignoring
composite attack instructions with multiple intentions that can easily elicit
harmful content in real-world scenarios. In this paper, we introduce an
innovative technique for obfuscating harmful instructions: Compositional
Instruction Attacks (CIA), which refers to attacking by combination and
encapsulation of multiple instructions. CIA hides harmful prompts within
instructions of harmless intentions, making it impossible for the model to
identify underlying malicious intentions. Furthermore, we implement two
transformation methods, known as T-CIA and W-CIA, to automatically disguise
harmful instructions as talking or writing tasks, making them appear harmless
to LLMs. We evaluated CIA on GPT-4, ChatGPT, and ChatGLM2 with two safety
assessment datasets and two harmful prompt datasets. It achieves an attack
success rate of 95%+ on safety assessment datasets, and 83%+ for GPT-4, 91%+
for ChatGPT (gpt-3.5-turbo backed) and ChatGLM2-6B on harmful prompt datasets.
Our approach reveals the vulnerability of LLMs to such compositional
instruction attacks that harbor underlying harmful intentions, contributing
significantly to LLM security development. Warning: this paper may contain
offensive or upsetting content!
- Abstract(参考訳): 近年、強力な汎用機能を持つ大規模言語モデル(LLM)が様々なWebアプリケーションに統合されつつ、生成されたコンテンツがユーザの意図や倫理と整合することを保証するアライメントトレーニングが実施されている。
残念ながら、ヘイトスピーチや犯罪行為などの有害なコンテンツを現実の応用で生成するリスクは残る。
現在のアプローチは主に、このようなリスクを防ぐために有害なプロンプトの検出、収集、トレーニングに依存している。
しかし、彼らは通常、単発的な意図で「表面的」有害なプロンプトに焦点を当て、現実世界のシナリオで有害なコンテンツを容易に引き出す複数の意図で複合攻撃命令を無視した。
本稿では,複数の命令の組み合わせとカプセル化による攻撃を指す合成命令攻撃(cia)という,有害な命令を隠蔽する革新的な手法を提案する。
CIAは有害な指示を無害な意図の指示の中に隠しており、モデルが根底にある悪意のある意図を特定することは不可能である。
さらに、T-CIAとW-CIAと呼ばれる2つのトランスフォーメーション手法を実装し、有害な指示を会話や文章のタスクとして自動的に偽装し、LLMに無害に見えるようにする。
GPT-4, ChatGPT, ChatGLM2でCIAを2つの安全性評価データセットと2つの有害なプロンプトデータセットで評価した。
安全評価データセットで95%以上、GPT-4で83%以上、ChatGPTで91%以上、有害なプロンプトデータセットでChatGLM2-6Bを攻撃成功率で達成している。
提案手法は, 有害な意図を隠蔽し, LLM のセキュリティ開発に大きく貢献する, 構成的攻撃に対する LLM の脆弱性を明らかにする。
警告:この論文には、攻撃的または不安定なコンテンツが含まれているかもしれない。
関連論文リスト
- Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues [88.96201324719205]
本研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の安全性の脆弱性を明らかにする。
本稿ではアクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。
LLMは有害なデータ収集や隠蔽攻撃に使用できる。
私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文 参考訳(メタデータ) (2024-08-20T09:11:21Z) - TAPI: Towards Target-Specific and Adversarial Prompt Injection against Code LLMs [27.700010465702842]
本稿では,新たな攻撃パラダイム,すなわち,コードLLMに対するターゲット固有および対向的プロンプトインジェクション(TAPI)を提案する。
TAPIは悪意のある命令に関する情報を含む読めないコメントを生成し、それらを外部ソースコードのトリガーとして隠す。
CodeGeexやGithub Copilotなど、デプロイされたコード補完統合アプリケーションに対する攻撃に成功しました。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Certifying LLM Safety against Adversarial Prompting [75.19953634352258]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。