論文の概要: Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning
- arxiv url: http://arxiv.org/abs/2402.01109v4
- Date: Thu, 22 Aug 2024 04:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 19:45:30.435932
- Title: Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning
- Title(参考訳): Vaccine: 有害な微調整に対する大規模言語モデルに対する摂動認識アライメント
- Authors: Tiansheng Huang, Sihao Hu, Ling Liu,
- Abstract要約: ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。
本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
- 参考スコア(独自算出の注目度): 7.653580388741887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The new paradigm of finetuning-as-a-service introduces a new attack surface for Large Language Models (LLMs): a few harmful data uploaded by users can easily trick the finetuning to produce an alignment-broken model. We conduct an empirical analysis and uncover a \textit{harmful embedding drift} phenomenon, showing a probable cause of the alignment-broken effect. Inspired by our findings, we propose Vaccine, a perturbation-aware alignment technique to mitigate the security risk of users finetuning. The core idea of Vaccine is to produce invariant hidden embeddings by progressively adding crafted perturbation to them in the alignment phase. This enables the embeddings to withstand harmful perturbation from un-sanitized user data in the finetuning phase. Our results on open source mainstream LLMs (e.g., Llama2, Opt, Vicuna) demonstrate that Vaccine can boost the robustness of alignment against harmful prompts induced embedding drift while reserving reasoning ability towards benign prompts. Our code is available at \url{https://github.com/git-disl/Vaccine}.
- Abstract(参考訳): 新しいファインタニング・アズ・ア・サービスというパラダイムでは,大規模言語モデル(LLM)に対する新たな攻撃面が導入されている。
実験的な解析を行い,アライメント・ブレイク効果の可能性が示唆された「textit{harmful embedding drift}」現象を解明した。
この発見に触発されて,ユーザによる微調整のセキュリティリスクを軽減するために,摂動認識アライメント技術であるVaccineを提案する。
Vaccineの中核となる考え方は、アライメントフェーズにおいて、職人的な摂動を徐々に加えることで、不変な隠れ埋め込みを作り出すことである。
これにより、埋め込みは、微調整フェーズにおける不衛生なユーザデータからの有害な摂動に耐えることができる。
オープンソースのLLM (Llama2, Opt, Vicuna) 実験の結果,Vacineは良性プロンプトに対する推論能力を保ちながら,有害なプロンプトによる埋め込みドリフトに対するアライメントの堅牢性を高めることができることが示された。
私たちのコードは \url{https://github.com/git-disl/Vaccine} で利用可能です。
関連論文リスト
- Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models! [52.0855711767075]
EvoSeedは、フォトリアリスティックな自然対向サンプルを生成するための進化戦略に基づくアルゴリズムフレームワークである。
我々は,CMA-ESを用いて初期種ベクトルの探索を最適化し,条件付き拡散モデルで処理すると,自然逆数サンプルをモデルで誤分類する。
実験の結果, 生成した対向画像は画像品質が高く, 安全分類器を通過させることで有害なコンテンツを生成する懸念が高まっていることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:39:29Z) - Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections [17.49244337226907]
バックドアインジェクションにより,大規模言語モデルに対してステルスと永続的不整合を行うことが可能であることを示す。
提案したステルスと持続的不整合は、再整合防御に対する強い持続性を維持しつつ、安全性評価に合格することができる。
論文 参考訳(メタデータ) (2023-11-15T23:52:05Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Denoising Diffusion Probabilistic Models as a Defense against
Adversarial Attacks [0.0]
本研究は,敵攻撃に対する浄化手法として,拡散確率モデル(DDPM)の性能を評価する。
リンパ節郭清におけるPatchCamelyonデータセットのアプローチについて検討し,その精度を88%まで向上させた。
論文 参考訳(メタデータ) (2023-01-17T13:27:53Z) - Disentangled Learning of Stance and Aspect Topics for Vaccine Attitude
Detection in Social Media [40.61499595293957]
VADetと呼ばれるワクチンの姿勢検出のための新しい半教師付きアプローチを提案する。
VADetは、歪んだ姿勢とアスペクトトピックを学習することができ、スタンス検出とツイートクラスタリングの両方で、既存のアスペクトベースの感情分析モデルより優れています。
論文 参考訳(メタデータ) (2022-05-06T15:24:33Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。