Fugu-MT 論文翻訳(概要): What's in Your "Safe" Data?: Identifying Benign Data that Breaks Safety

論文の概要: What's in Your "Safe" Data?: Identifying Benign Data that Breaks Safety

arxiv url: http://arxiv.org/abs/2404.01099v1
Date: Mon, 1 Apr 2024 13:12:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 22:25:32.511575
Title: What's in Your "Safe" Data?: Identifying Benign Data that Breaks Safety
Title（参考訳）: 安全データには何があるのか?:安全を損なう良質なデータを識別する
Authors: Luxi He, Mengzhou Xia, Peter Henderson,
Abstract要約: 良質なデータで整列モデルを微調整することは、必然的にジェイルブレイクに寄与することを示す。本稿では,有害な事例に近づき,良性な事例から遠ざかるデータポイントを優先する双方向アンカー手法を提案する。
参考スコア（独自算出の注目度）: 13.017909875653002
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current Large Language Models (LLMs), even those tuned for safety and alignment, are susceptible to jailbreaking. Some have found that just further fine-tuning an aligned model with benign data (i.e., data without harmful content) surprisingly leads to substantial degradation in safety. We delve into the data-centric aspects of why benign fine-tuning inadvertently contributes to jailbreaking. First, we represent fine-tuning data through two lenses: representation and gradient spaces. Furthermore, we propose a bi-directional anchoring method that prioritizes data points that are close to harmful examples and distant from benign ones. By doing so, our approach effectively identifies subsets of benign data that are more likely to degrade the model's safety after fine-tuning. Training on just 100 of these seemingly benign datapoints can lead to the fine-tuned model affirmatively responding to > 70% of tested harmful requests, compared to < 20% after fine-tuning on randomly selected data. We further find that selected data are often in the form of lists and bullet points, or math questions.
Abstract（参考訳）: 現在のLLM(Large Language Models)は、安全性とアライメントのために調整されたものでさえ、ジェイルブレイクの影響を受けやすい。さらに、良質なデータ(すなわち有害な内容のないデータ)で整列モデルを微調整するだけで、驚くほど安全性が低下することを発見した者もいる。精巧な微調整が誤ってジェイルブレイクに寄与する理由について、データ中心の側面を掘り下げる。まず、2つのレンズ(表現空間と勾配空間)を通して微調整データを表現する。さらに,有害な事例に近づき,良性な事例から遠ざかるデータ点を優先する双方向アンカー手法を提案する。これにより、微調整後にモデルの安全性を低下させる可能性が高くなる良質なデータのサブセットを効果的に同定する。わずか100個の不明瞭なデータポイントのトレーニングは、テストされた有害な要求の70%に対して肯定的に反応する微調整モデルにつながる可能性がある。さらに、選択されたデータは、しばしばリストや弾丸点、数学の質問の形で表示される。

関連論文リスト

Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文参考訳（メタデータ） (2025-06-05T17:59:55Z)
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文参考訳（メタデータ） (2025-01-30T02:47:09Z)
How Much Do Code Language Models Remember? An Investigation on Data Extraction Attacks before and after Fine-tuning [2.3759432635713895]
我々は、事前訓練されたコード言語モデルと微調整されたコード言語モデルの両方を攻撃し、データの抽出可能性について調査する。微調整は少ないリソースを必要とし、その特殊データに対する有効性のために、小規模でも大規模でもますます利用されている。データキャリアとライセンス情報は、事前訓練されたモデルと微調整されたモデルから記憶される可能性が最も高い一方、後者は微調整後に忘れられる可能性が最も高い。
論文参考訳（メタデータ） (2025-01-29T09:17:30Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Revealing the Unseen: Guiding Personalized Diffusion Models to Expose Training Data [10.619162675453806]
拡散モデル(DM)は高度な画像生成ツールへと進化してきた。 FineXtractは、微調整データを抽出するフレームワークである。 WikiArtやDreamBoothといったデータセットで微調整されたDMの実験や、オンラインにポストされた実世界のチェックポイントは、我々の方法の有効性を検証する。
論文参考訳（メタデータ） (2024-10-03T23:06:11Z)
Overriding Safety protections of Open-source Models [4.093963624562595]
本稿では, 微調整における有害データ導入の影響について検討する。有害なデータに対してモデルを微調整することで、役に立たないか、信頼できないかを調査する。安全な微調整モデルでは、ベースモデルと比較してASRは51.68%減少する。
論文参考訳（メタデータ） (2024-09-28T22:53:27Z)
Data Poisoning in LLMs: Jailbreak-Tuning and Scaling Laws [4.579553472774928]
我々は新しい攻撃パラダイムであるjailbreak-tuningを開発し、データ中毒とjailbreakを組み合わせ、最先端の保護を全面的にバイパスする。悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを評価する。我々の実験では、より大きなLSMは、より小さなモデルよりも、有害なデータへの最小限の露出から有害な振る舞いを学習し、データ中毒にかなり敏感であることが判明した。
論文参考訳（メタデータ） (2024-08-06T04:14:29Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文参考訳（メタデータ） (2024-06-28T17:05:46Z)
Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models [53.50543146583101]
小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文参考訳（メタデータ） (2024-06-12T18:33:11Z)
Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文参考訳（メタデータ） (2024-01-31T07:26:47Z)
Learning and Forgetting Unsafe Examples in Large Language Models [41.115096910603086]
大規模言語モデル(LLM)は、サードパーティのカスタム微調整データから学習する。協調LLMは、安全でないコンテンツを容易に学習できるが、より安全なコンテンツに微調整した場合には、それを忘れやすい傾向にある。このアルゴリズムは、モデルがそのデータに対して忘れている信号がどれほど強いかに基づいて、安全でないデータをフィルタリングする。
論文参考訳（メタデータ） (2023-12-20T03:18:50Z)
Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文参考訳（メタデータ） (2023-07-10T08:03:41Z)
Learning to Unlearn: Instance-wise Unlearning for Pre-trained Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文参考訳（メタデータ） (2023-01-27T07:53:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。