論文の概要: Jailbreak and Guard Aligned Language Models with Only Few In-Context
Demonstrations
- arxiv url: http://arxiv.org/abs/2310.06387v1
- Date: Tue, 10 Oct 2023 07:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 18:19:53.954196
- Title: Jailbreak and Guard Aligned Language Models with Only Few In-Context
Demonstrations
- Title(参考訳): 文脈記述の少ないジェイルブレークとガードアライメント言語モデル
- Authors: Zeming Wei, Yifei Wang, Yisen Wang
- Abstract要約: 大きな言語モデル(LLM)は様々なタスクで顕著な成功を収めているが、それらの安全性と悪意のあるコンテンツを生成する可能性への懸念が浮上している。
我々は,LLMのアライメント能力を操作する上で,インコンテクスト学習(ICL)の能力について検討する。
In-Context Attack (ICA) と In-Context Defense (ICD) の手法を提案する。
- 参考スコア(独自算出の注目度): 36.61907023057978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable success in various tasks,
but concerns about their safety and the potential for generating malicious
content have emerged. In this paper, we explore the power of In-Context
Learning (ICL) in manipulating the alignment ability of LLMs. We find that by
providing just few in-context demonstrations without fine-tuning, LLMs can be
manipulated to increase or decrease the probability of jailbreaking, i.e.
answering malicious prompts. Based on these observations, we propose In-Context
Attack (ICA) and In-Context Defense (ICD) methods for jailbreaking and guarding
aligned language model purposes. ICA crafts malicious contexts to guide models
in generating harmful outputs, while ICD enhances model robustness by
demonstrations of rejecting to answer harmful prompts. Our experiments show the
effectiveness of ICA and ICD in increasing or reducing the success rate of
adversarial jailbreaking attacks. Overall, we shed light on the potential of
ICL to influence LLM behavior and provide a new perspective for enhancing the
safety and alignment of LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なタスクで顕著な成功を収めているが、その安全性と悪質なコンテンツを生み出す可能性に関する懸念が浮上している。
本稿では,LLMのアライメント能力を操作する上で,インコンテキスト学習(ICL)の能力について検討する。
微調整をせずに、わずかにコンテキスト内デモを提供することで、LLMを操作して、悪意のあるプロンプトに応答する、脱獄の確率を増大または減少させることができる。
これらの観測結果に基づいて,同調言語モデルのためのジェイルブレーキングとガードを行うためのICA(In-Context Attack)とICD(In-Context Defense)手法を提案する。
icaは有害なアウトプットを生成するモデルのガイドとして悪意のあるコンテキストを作成し、icdは有害なプロンプトへの応答を拒否するデモによってモデルの堅牢性を高める。
本実験は,ICAおよびICDが敵の脱獄攻撃の成功率を増大または減少させる効果を示した。
全体として、ICLがLCMの行動に影響を及ぼす可能性に光を当て、LCMの安全性とアライメントを高めるための新たな視点を提供する。
関連論文リスト
- Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector [62.23945242640024]
本稿では,概念に基づくモデル記述を用いたLLM攻撃手法を提案する。
安全概念アクティベーションベクトル(SCAV)をLLMのアクティベーション空間から抽出し、適切に整列されたLCMに対する効率的な攻撃を可能にする。
このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Exploring the Adversarial Capabilities of Large Language Models [25.7847594292453]
大きな言語モデル(LLM)は、良心的なサンプルから敵の例を作れば、既存の安全なレールを騙すことができる。
我々の実験は、ヘイトスピーチ検出に焦点をあて、LLMが敵の摂動を見つけることに成功し、ヘイトスピーチ検出システムを効果的に損なうことを示した。
論文 参考訳(メタデータ) (2024-02-14T12:28:38Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Hijacking Large Language Models via Adversarial In-Context Learning [9.161967285486051]
本研究は,LSMをハイジャックして標的とする応答を発生させることを目的として,ICLに新たなトランスファー可能な攻撃を導入する。
提案したLSMハイジャック攻撃は、インコンテクストのデモに知覚不可能な逆接接尾辞を学習し、付加するために勾配に基づくプロンプトサーチ手法を利用する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Adversarial Demonstration Attacks on Large Language Models [43.15298174675082]
本稿では,テキスト内学習(ICL)のセキュリティ問題について,敵対的観点から検討する。
本稿では,入力を変更せずに実演のみを操作することを目的とした,advICLという新しい攻撃手法を提案する。
その結果,実演数が増えるにつれて,文脈内学習の堅牢性が低下することが示唆された。
論文 参考訳(メタデータ) (2023-05-24T09:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。