論文の概要: Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases
- arxiv url: http://arxiv.org/abs/2310.14303v1
- Date: Sun, 22 Oct 2023 13:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:44:42.576608
- Title: Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases
- Title(参考訳): 言語モデルアンアライメント:隠れたハームとバイアスを抽出するパラメトリックなレッドチーム
- Authors: Rishabh Bhardwaj, Soujanya Poria
- Abstract要約: Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
- 参考スコア(独自算出の注目度): 32.2246459413988
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Red-teaming has been a widely adopted way to evaluate the harmfulness of
Large Language Models (LLMs). It aims to jailbreak a model's safety behavior to
make it act as a helpful agent disregarding the harmfulness of the query.
Existing methods are primarily based on input text-based red-teaming such as
adversarial prompts, low-resource prompts, or contextualized prompts to
condition the model in a way to bypass its safe behavior. Bypassing the
guardrails uncovers hidden harmful information and biases in the model that are
left untreated or newly introduced by its safety training. However,
prompt-based attacks fail to provide such a diagnosis owing to their low attack
success rate, and applicability to specific models. In this paper, we present a
new perspective on LLM safety research i.e., parametric red-teaming through
Unalignment. It simply (instruction) tunes the model parameters to break model
guardrails that are not deeply rooted in the model's behavior. Unalignment
using as few as 100 examples can significantly bypass commonly referred to as
CHATGPT, to the point where it responds with an 88% success rate to harmful
queries on two safety benchmark datasets. On open-source models such as
VICUNA-7B and LLAMA-2-CHAT 7B AND 13B, it shows an attack success rate of more
than 91%. On bias evaluations, Unalignment exposes inherent biases in
safety-aligned models such as CHATGPT and LLAMA- 2-CHAT where the model's
responses are strongly biased and opinionated 64% of the time.
- Abstract(参考訳): red-teamingは大規模言語モデル(llm)の有害性を評価する手段として広く採用されている。
これは、モデルの安全動作をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
既存の手法は主に、敵対的プロンプト、低リソースプロンプト、文脈化されたプロンプトといった入力テキストベースのレッドチームに基づいており、安全な振る舞いを回避している。
ガードレールを通過させることで、安全訓練によって新たに導入された未処理または未処理のモデルに隠された有害な情報やバイアスが明らかになる。
しかし、攻撃成功率の低さと特定のモデルへの適用性から、プロンプトベースの攻撃はそのような診断を提供しない。
本稿では,LLMの安全性研究,すなわちUnalignmentによるパラメトリックレッドチームについて,新たな視点を示す。
単に(指示)モデルパラメータをチューニングして、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
最大100のサンプルを使用したアンアライメントは、一般的にCHATGPTと呼ばれるものから、2つのセーフティベンチマークデータセットで有害なクエリに対して88%の成功率で応答する時点まで、大幅にバイパスすることができる。
VICUNA-7BやLAMA-2-CHAT 7Bや13Bといったオープンソースのモデルでは、攻撃成功率は91%以上である。
バイアス評価では、unalignmentは、モデルの応答が強くバイアスされ、時間の64%が意見を呈するchatgptやllama- 2-chatのような安全アライメントモデルに固有のバイアスを露呈する。
関連論文リスト
- Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring [47.40698758003993]
そこで本研究では,ターゲットブラックボックスモデルのミラーモデルを良質なデータ蒸留により局所的に訓練することにより,悪意あるプロンプト構築を誘導するトランスファー攻撃法を提案する。
提案手法は最大攻撃成功率92%, バランス値80%を達成し, GPT-3.5 Turboに対して平均1.5のジェイルブレイククエリが検出された。
論文 参考訳(メタデータ) (2024-10-28T14:48:05Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Single Character Perturbations Break LLM Alignment [20.79833694266861]
モデル入力の端に空間を付加するだけで、モデルディフェンスを壊すことが可能であることを示す。
トークン化されたトレーニングデータに単一空間が存在する状況は、モデルにトリガーされた時にリストを生成することを奨励する。
本研究は, 現行モデルアライメントの脆弱さを浮き彫りにして, より堅牢なアライメント手法の開発の重要性を推し進めるものである。
論文 参考訳(メタデータ) (2024-07-03T16:03:10Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Explore, Establish, Exploit: Red Teaming Language Models from Scratch [7.949645304649025]
我々は、相手が失敗を分類する方法から始めない「ゼロから」レッドチームを考える。
我々は,この手法を用いて,偽文を抽出する入力のクラスを発見する。
論文 参考訳(メタデータ) (2023-06-15T18:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。