論文の概要: Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models
- arxiv url: http://arxiv.org/abs/2310.02949v1
- Date: Wed, 4 Oct 2023 16:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 13:58:37.616888
- Title: Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models
- Title(参考訳): シャドーアライメント:安全なアライメント言語モデルの逆変換の容易性
- Authors: Xianjun Yang, Xiao Wang, Qi Zhang, Linda Petzold, William Yang Wang,
Xun Zhao, Dahua Lin
- Abstract要約: オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
- 参考スコア(独自算出の注目度): 102.63973600144308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Warning: This paper contains examples of harmful language, and reader
discretion is recommended. The increasing open release of powerful large
language models (LLMs) has facilitated the development of downstream
applications by reducing the essential cost of data annotation and computation.
To ensure AI safety, extensive safety-alignment measures have been conducted to
armor these models against malicious use (primarily hard prompt attack).
However, beneath the seemingly resilient facade of the armor, there might lurk
a shadow. By simply tuning on 100 malicious examples with 1 GPU hour, these
safely aligned LLMs can be easily subverted to generate harmful content.
Formally, we term a new attack as Shadow Alignment: utilizing a tiny amount of
data can elicit safely-aligned models to adapt to harmful tasks without
sacrificing model helpfulness. Remarkably, the subverted models retain their
capability to respond appropriately to regular inquiries. Experiments across 8
models released by 5 different organizations (LLaMa-2, Falcon, InternLM,
BaiChuan2, Vicuna) demonstrate the effectiveness of shadow alignment attack.
Besides, the single-turn English-only attack successfully transfers to
multi-turn dialogue and other languages. This study serves as a clarion call
for a collective effort to overhaul and fortify the safety of open-source LLMs
against malicious attackers.
- Abstract(参考訳): 警告: 本論文は有害言語の例を含み, 読者の判断を推奨する。
強力な大規模言語モデル(LLM)のオープンリリースが増加し、データアノテーションと計算に要するコストを削減し、下流アプリケーションの開発が容易になった。
AIの安全性を確保するため、これらのモデルを悪意のある使用(主に激しい攻撃)に対して防御するために、広範な安全調整措置が実施されている。
しかし、装甲の弾力のあるファサードの下には、影がこぼれる可能性がある。
1GPU時間で100の悪質な例をチューニングするだけで、安全に配置されたLSMを簡単に変換して有害なコンテンツを生成することができる。
ごく少量のデータを利用することで、モデルの有用性を犠牲にすることなく、有害なタスクに適応するために安全にアライメントされたモデルを導き出せる。
驚くべきことに、subvertedモデルでは、通常の問い合わせに適切に応答する能力が保たれている。
5つの異なる組織(LLaMa-2、Falcon、InternLM、BaiChuan2、Vicuna)がリリースした8つのモデルにわたる実験は、シャドーアライメントアタックの有効性を実証している。
さらに、シングルターンイングリッシュオンリーアタックは、マルチターンダイアログや他の言語への転送に成功している。
この研究は、悪質な攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みである。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Backdoor Activation Attack: Attack Large Language Models using
Activation Steering for Safety-Alignment [36.91218391728405]
本稿では,Large Language Modelsの安全性アライメントの脆弱性について検討する。
LLMの既存の攻撃方法は、有毒な訓練データや悪意のあるプロンプトの注入に依存している。
最適化を必要とせず, ステアリングベクターによるモデル動作の修正に成功した最近の成功に触発されて, リピートLLMにおけるその有効性に着想を得た。
実験の結果,アクティベーションアタックは極めて効果的であり,攻撃効率のオーバーヘッドはほとんどあるいは全く生じないことが判明した。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context
Demonstrations [36.61907023057978]
大きな言語モデル(LLM)は様々なタスクで顕著な成功を収めているが、それらの安全性と悪意のあるコンテンツを生成する可能性への懸念が浮上している。
我々は,LLMのアライメント能力を操作する上で,インコンテクスト学習(ICL)の能力について検討する。
In-Context Attack (ICA) と In-Context Defense (ICD) の手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。