論文の概要: What's in Your "Safe" Data?: Identifying Benign Data that Breaks Safety
- arxiv url: http://arxiv.org/abs/2404.01099v1
- Date: Mon, 1 Apr 2024 13:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:25:32.511575
- Title: What's in Your "Safe" Data?: Identifying Benign Data that Breaks Safety
- Title(参考訳): 安全データには何があるのか?:安全を損なう良質なデータを識別する
- Authors: Luxi He, Mengzhou Xia, Peter Henderson,
- Abstract要約: 良質なデータで整列モデルを微調整することは、必然的にジェイルブレイクに寄与することを示す。
本稿では,有害な事例に近づき,良性な事例から遠ざかるデータポイントを優先する双方向アンカー手法を提案する。
- 参考スコア(独自算出の注目度): 13.017909875653002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Large Language Models (LLMs), even those tuned for safety and alignment, are susceptible to jailbreaking. Some have found that just further fine-tuning an aligned model with benign data (i.e., data without harmful content) surprisingly leads to substantial degradation in safety. We delve into the data-centric aspects of why benign fine-tuning inadvertently contributes to jailbreaking. First, we represent fine-tuning data through two lenses: representation and gradient spaces. Furthermore, we propose a bi-directional anchoring method that prioritizes data points that are close to harmful examples and distant from benign ones. By doing so, our approach effectively identifies subsets of benign data that are more likely to degrade the model's safety after fine-tuning. Training on just 100 of these seemingly benign datapoints can lead to the fine-tuned model affirmatively responding to > 70% of tested harmful requests, compared to < 20% after fine-tuning on randomly selected data. We further find that selected data are often in the form of lists and bullet points, or math questions.
- Abstract(参考訳): 現在のLLM(Large Language Models)は、安全性とアライメントのために調整されたものでさえ、ジェイルブレイクの影響を受けやすい。
さらに、良質なデータ(すなわち有害な内容のないデータ)で整列モデルを微調整するだけで、驚くほど安全性が低下することを発見した者もいる。
精巧な微調整が誤ってジェイルブレイクに寄与する理由について、データ中心の側面を掘り下げる。
まず、2つのレンズ(表現空間と勾配空間)を通して微調整データを表現する。
さらに,有害な事例に近づき,良性な事例から遠ざかるデータ点を優先する双方向アンカー手法を提案する。
これにより、微調整後にモデルの安全性を低下させる可能性が高くなる良質なデータのサブセットを効果的に同定する。
わずか100個の不明瞭なデータポイントのトレーニングは、テストされた有害な要求の70%に対して肯定的に反応する微調整モデルにつながる可能性がある。
さらに、選択されたデータは、しばしばリストや弾丸点、数学の質問の形で表示される。
関連論文リスト
- Mitigating Fine-tuning Jailbreak Attack with Backdoor Enhanced Alignment [58.07171349593672]
ファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する防御のためのバックドア強化安全アライメントを提案する。
安全事例に先行する「バックドアトリガー」として,シークレットプロンプトを統合することで,プレフィックス付き安全事例を構築した。
我々の実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)により、最大11個のプレフィックス付き安全サンプルを追加することで、悪意ある微調整 LLM が元のアライメントモデルと同様の安全性性能を達成することを実証した。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Learning and Forgetting Unsafe Examples in Large Language Models [44.11016537352559]
大規模言語モデル(LLM)は、サードパーティのカスタム微調整データから学習する。
協調LLMは、安全でないコンテンツを容易に学習できるが、より安全なコンテンツに微調整した場合には、それを忘れやすい傾向にある。
このアルゴリズムは、モデルがそのデータに対して忘れている信号がどれほど強いかに基づいて、安全でないデータをフィルタリングする。
論文 参考訳(メタデータ) (2023-12-20T03:18:50Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Self-Ensemble Protection: Training Checkpoints Are Good Data Protectors [41.45649235969172]
自己アンサンブル保護(SEP)は、データに対する優れたモデルのトレーニングを防ぐために提案されている。
例えば、我々の小さな摂動により、CIFAR-10 ResNet18の精度は94.56%から14.68%に低下し、最もよく知られている方法は41.35%となった。
論文 参考訳(メタデータ) (2022-11-22T04:54:20Z) - Semantic Preserving Adversarial Attack Generation with Autoencoder and
Genetic Algorithm [29.613411948228563]
小さなノイズは、最先端のモデルを騙して誤った予測をする。
自動エンコーダによって抽出されたデータの潜時特性を変更するブラックボックス攻撃を提案する。
我々は,MNISTとCIFAR-10データセットを用いてオートエンコーダを訓練し,遺伝的アルゴリズムを用いて最適な逆方向摂動を発見した。
論文 参考訳(メタデータ) (2022-08-25T17:27:26Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - Explaining Adversarial Vulnerability with a Data Sparsity Hypothesis [0.0]
深層学習モデルは 敵対的な攻撃を受けやすい
本稿では,そのような決定境界を学習するためのDLモデルのトレーニングフレームワークを開発する。
我々は,このトレーニングフレームワークを用いて訓練したモデルの,よく知られた敵攻撃に対する敵の堅牢性を測定する。
論文 参考訳(メタデータ) (2021-03-01T06:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。