論文の概要: DROJ: A Prompt-Driven Attack against Large Language Models
- arxiv url: http://arxiv.org/abs/2411.09125v1
- Date: Thu, 14 Nov 2024 01:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:25.070037
- Title: DROJ: A Prompt-Driven Attack against Large Language Models
- Title(参考訳): DROJ: 大規模言語モデルに対するプロンプト駆動の攻撃
- Authors: Leyang Hu, Boran Wang,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) have demonstrated exceptional capabilities across various natural language processing tasks. Due to their training on internet-sourced datasets, LLMs can sometimes generate objectionable content, necessitating extensive alignment with human feedback to avoid such outputs. Despite massive alignment efforts, LLMs remain susceptible to adversarial jailbreak attacks, which usually are manipulated prompts designed to circumvent safety mechanisms and elicit harmful responses. Here, we introduce a novel approach, Directed Rrepresentation Optimization Jailbreak (DROJ), which optimizes jailbreak prompts at the embedding level to shift the hidden representations of harmful queries towards directions that are more likely to elicit affirmative responses from the model. Our evaluations on LLaMA-2-7b-chat model show that DROJ achieves a 100\% keyword-based Attack Success Rate (ASR), effectively preventing direct refusals. However, the model occasionally produces repetitive and non-informative responses. To mitigate this, we introduce a helpfulness system prompt that enhances the utility of the model's responses. Our code is available at https://github.com/Leon-Leyang/LLM-Safeguard.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
インターネットにソースされたデータセットをトレーニングするため、LLMは時に好ましくないコンテンツを生成することができ、そのようなアウトプットを避けるために、人間のフィードバックと広範囲にアライメントする必要がある。
大規模なアライメントの努力にもかかわらず、LLMは敵のジェイルブレイク攻撃の影響を受けやすいままであり、通常は安全メカニズムを回避し、有害な応答を誘発するために設計されたプロンプトが操作される。
そこで本研究では,DROJ (Directed Rrepresentation Optimization Jailbreak) という新しい手法を導入し,脱獄プロンプトを組込みレベルで最適化し,有害なクエリの隠蔽表現をモデルから肯定的な応答を導きやすい方向にシフトさせる手法を提案する。
LLaMA-2-7b-chatモデルによる評価は、DROJが100\%のキーワードベースのアタック成功率(ASR)を達成することを示し、直接の拒絶を効果的に防止する。
しかし、このモデルは時折繰り返しおよび非表現的な応答を生成する。
これを軽減するために、モデル応答の有用性を高める有用なシステムプロンプトを導入する。
私たちのコードはhttps://github.com/Leon-Leyang/LLM-Safeguardで利用可能です。
関連論文リスト
- Multi-round jailbreak attack on large language models [2.540971544359496]
私たちは"ジェイルブレイク"攻撃をよりよく理解するために、マルチラウンドのジェイルブレイクアプローチを導入します。
この方法は危険なプロンプトを書き換え、有害でない一連のサブクエストに分解する。
実験の結果,ラマ2-7Bは94%の成功率を示した。
論文 参考訳(メタデータ) (2024-10-15T12:08:14Z) - RePD: Defending Jailbreak Attack through a Retrieval-based Prompt Decomposition Process [23.66988994636578]
我々は,大規模言語モデル(LLM)に対するジェイルブレイク攻撃のリスクを軽減するために設計された,革新的な攻撃フレームワークであるPDを導入する。
RePDはワンショットの学習モデルで動作し、Jailbreakプロンプトテンプレートのデータベースにアクセスして、ユーザプロンプトに埋め込まれた有害な問い合わせを特定して分解する。
我々は,典型的なユーザ要求に応答する際の性能を損なうことなく,LDMのジェイルブレイク攻撃に対するレジリエンスを高めるためのRePDの有効性を実証した。
論文 参考訳(メタデータ) (2024-10-11T09:39:11Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs [14.1985036536366]
深部強化学習(DRL)を利用した新しいブラックボックスジェイルブレイク攻撃であるRL-JACKを提案する。
本手法は, ジェイルブレイク時のRLエージェントの学習効率を向上させるために, 一連のカスタマイズされた設計を含む。
RL-JACKは6台のSOTA LLMに対する既存のジェイルブレイク攻撃よりもはるかに効果的であることを示す。
論文 参考訳(メタデータ) (2024-06-13T01:05:22Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。