論文の概要: Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases
- arxiv url: http://arxiv.org/abs/2310.14303v2
- Date: Mon, 13 Nov 2023 05:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 20:01:40.551902
- Title: Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases
- Title(参考訳): 言語モデルアンアライメント:隠れたハームとバイアスを抽出するパラメトリックなレッドチーム
- Authors: Rishabh Bhardwaj, Soujanya Poria
- Abstract要約: Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
- 参考スコア(独自算出の注目度): 32.2246459413988
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Red-teaming has been a widely adopted way to evaluate the harmfulness of
Large Language Models (LLMs). It aims to jailbreak a model's safety behavior to
make it act as a helpful agent disregarding the harmfulness of the query.
Existing methods are primarily based on input text-based red-teaming such as
adversarial prompts, low-resource prompts, or contextualized prompts to
condition the model in a way to bypass its safe behavior. Bypassing the
guardrails uncovers hidden harmful information and biases in the model that are
left untreated or newly introduced by its safety training. However,
prompt-based attacks fail to provide such a diagnosis owing to their low attack
success rate, and applicability to specific models. In this paper, we present a
new perspective on LLM safety research i.e., parametric red-teaming through
Unalignment. It simply (instruction) tunes the model parameters to break model
guardrails that are not deeply rooted in the model's behavior. Unalignment
using as few as 100 examples can significantly bypass commonly referred to as
CHATGPT, to the point where it responds with an 88% success rate to harmful
queries on two safety benchmark datasets. On open-source models such as
VICUNA-7B and LLAMA-2-CHAT 7B AND 13B, it shows an attack success rate of more
than 91%. On bias evaluations, Unalignment exposes inherent biases in
safety-aligned models such as CHATGPT and LLAMA- 2-CHAT where the model's
responses are strongly biased and opinionated 64% of the time.
- Abstract(参考訳): red-teamingは大規模言語モデル(llm)の有害性を評価する手段として広く採用されている。
これは、モデルの安全動作をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
既存の手法は主に、敵対的プロンプト、低リソースプロンプト、文脈化されたプロンプトといった入力テキストベースのレッドチームに基づいており、安全な振る舞いを回避している。
ガードレールを通過させることで、安全訓練によって新たに導入された未処理または未処理のモデルに隠された有害な情報やバイアスが明らかになる。
しかし、攻撃成功率の低さと特定のモデルへの適用性から、プロンプトベースの攻撃はそのような診断を提供しない。
本稿では,LLMの安全性研究,すなわちUnalignmentによるパラメトリックレッドチームについて,新たな視点を示す。
単に(指示)モデルパラメータをチューニングして、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
最大100のサンプルを使用したアンアライメントは、一般的にCHATGPTと呼ばれるものから、2つのセーフティベンチマークデータセットで有害なクエリに対して88%の成功率で応答する時点まで、大幅にバイパスすることができる。
VICUNA-7BやLAMA-2-CHAT 7Bや13Bといったオープンソースのモデルでは、攻撃成功率は91%以上である。
バイアス評価では、unalignmentは、モデルの応答が強くバイアスされ、時間の64%が意見を呈するchatgptやllama- 2-chatのような安全アライメントモデルに固有のバイアスを露呈する。
関連論文リスト
- Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B [0.11705094053512542]
Llama 2-Chatの重みを微調整することで,言語モデルにおける安全性トレーニングの堅牢性について検討する。
1モデルあたり200ドル未満の予算と1GPUのみを使用して、Llama 2-Chatモデルの7B、13B、70Bの安全性トレーニングを成功裏に実施しました。
逆微調整は実用的かつ効果的であることを示し、それゆえ、微調整によるリスク評価がリスク評価の中核となるべきであると論じる。
論文 参考訳(メタデータ) (2023-10-31T16:55:06Z) - Red-Teaming Large Language Models using Chain of Utterances for
Safety-Alignment [32.2246459413988]
我々は,新しい安全評価ベンチマークRED-EVALを提案する。
広範にデプロイされたモデルであっても、CoU(Chain of Utterances-based)のプロンプトの影響を受けやすいことを示す。
また、RED-EVALが8つのオープンソースLCMにまたがる一貫性を実証し、レッドチームの試みの86%以上で有害な応答を発生させることを示した。
論文 参考訳(メタデータ) (2023-08-18T16:27:04Z) - One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。
本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文 参考訳(メタデータ) (2023-08-12T09:34:43Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Explore, Establish, Exploit: Red Teaming Language Models from Scratch [7.949645304649025]
我々は、相手が失敗を分類する方法から始めない「ゼロから」レッドチームを考える。
我々は,この手法を用いて,偽文を抽出する入力のクラスを発見する。
論文 参考訳(メタデータ) (2023-06-15T18:49:50Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。