論文の概要: Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety
- arxiv url: http://arxiv.org/abs/2505.06843v1
- Date: Sun, 11 May 2025 04:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.06831
- Title: Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety
- Title(参考訳): 良質なサンプルが重要! 良質な良質な良質なサンプルを微調整して安全性を損なう
- Authors: Zihan Guan, Mengxuan Hu, Ronghang Zhu, Sheng Li, Anil Vullikanti,
- Abstract要約: 安全劣化に最も寄与する良性データセット内のサンプルを分析し,同定する。
微調整のためのアウトリアの検出と抽出を行うセルフInf-Nを提案する。
以上の結果から,既存の緩和戦略のほとんどが,この攻撃に対して防御に失敗していることが示唆された。
- 参考スコア(独自算出の注目度): 24.51481840826035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have uncovered a troubling vulnerability in the fine-tuning stage of large language models (LLMs): even fine-tuning on entirely benign datasets can lead to a significant increase in the harmfulness of LLM outputs. Building on this finding, our red teaming study takes this threat one step further by developing a more effective attack. Specifically, we analyze and identify samples within benign datasets that contribute most to safety degradation, then fine-tune LLMs exclusively on these samples. We approach this problem from an outlier detection perspective and propose Self-Inf-N, to detect and extract outliers for fine-tuning. Our findings reveal that fine-tuning LLMs on 100 outlier samples selected by Self-Inf-N in the benign datasets severely compromises LLM safety alignment. Extensive experiments across seven mainstream LLMs demonstrate that our attack exhibits high transferability across different architectures and remains effective in practical scenarios. Alarmingly, our results indicate that most existing mitigation strategies fail to defend against this attack, underscoring the urgent need for more robust alignment safeguards. Codes are available at https://github.com/GuanZihan/Benign-Samples-Matter.
- Abstract(参考訳): 近年の研究では、大きな言語モデル(LLM)の微調整段階において、問題となる脆弱性が発見されている。
この発見に基づいて、我々のレッドチームによる研究は、より効果的な攻撃を開発することで、この脅威をさらに一歩進める。
具体的には、安全性の低下に最も寄与する良性データセット内のサンプルを分析し、分析し、その後、これらのサンプルにのみ精細なLPMを抽出する。
そこで我々は,この問題をアウトラヤ検出の観点からアプローチし,微細チューニングのためのアウトラヤの検出と抽出を行うセルフInf-Nを提案する。
以上の結果から,Self-Inf-Nが選択した100個のアウトリーチ試料の微調整LDMは,LLMの安全性を著しく損なうことが明らかとなった。
7つの主要なLSMにわたる大規模な実験により、我々の攻撃は異なるアーキテクチャにわたる高い転送可能性を示し、実用的なシナリオで有効であることが示された。
我々の結果は、既存の緩和戦略のほとんどがこの攻撃に対して防御に失敗していることを示し、より堅牢なアライメント保護の必要性を浮き彫りにしている。
コードはhttps://github.com/GuanZihan/Benign-Samples-Matter.comで入手できる。
関連論文リスト
- Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Refining Positive and Toxic Samples for Dual Safety Self-Alignment of LLMs with Minimal Human Interventions [17.485655062129965]
近年のAIエージェントは、大規模言語モデル(LLM)の出力を人間の意図で調整するために、命令チューニングと強化学習に依存している。
PT-ALIGN(PT-ALIGN)は,ヒトの健康管理を最小化するための安全自己調整手法である。
PT-ALIGNの安全性向上に有効であると同時に,有用性と有用性の両面を両立させながら,9つのオープンソース LLM 実験を行った。
論文 参考訳(メタデータ) (2025-02-08T09:54:47Z) - Picky LLMs and Unreliable RMs: An Empirical Study on Safety Alignment after Instruction Tuning [39.48925539103229]
微調整された大きな言語モデル(LLM)は、その安全性のアライメントを必然的に低下させる。
この現象により、モデルは不適切な応答を与えるのにより敏感になる。
我々の研究は、微調整中に安全アライメントを維持する複雑さを強調している。
論文 参考訳(メタデータ) (2025-02-03T07:09:09Z) - Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。
LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset [4.522849055040843]
この研究は、Helpful and Harmless データセットを Anthropic で監査した。
本研究は,大規模言語モデルにおける安全性軽減のための,よりニュアンスで文脈に敏感なアプローチの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-11-12T23:43:20Z) - Safety-Aware Fine-Tuning of Large Language Models [29.5636201427693]
細調整された大規模言語モデル(LLM)は、個々のニーズや好みに合わせてモデルを調整するための一般的なプラクティスとして現れています。
本稿では,有害な可能性のあるデータを自動検出・除去する,新たなSAFT(Safety-Aware Fine-Tuning)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-13T21:24:25Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。