論文の概要: Vaccine: Perturbation-aware Alignment for Large Language Model
- arxiv url: http://arxiv.org/abs/2402.01109v2
- Date: Sun, 18 Feb 2024 22:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:08:01.216937
- Title: Vaccine: Perturbation-aware Alignment for Large Language Model
- Title(参考訳): Vaccine: 大規模言語モデルのための摂動認識アライメント
- Authors: Tiansheng Huang, Sihao Hu, Ling Liu
- Abstract要約: ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。
本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
- 参考スコア(独自算出の注目度): 8.601857354379096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The new paradigm of finetuning-as-a-service introduces a new attack surface
for Large Language Models (LLMs): a few harmful data uploaded by users can
easily trick the finetuning to produce an alignment-broken model. We conduct an
empirical analysis and uncover a \textit{harmful embedding drift} phenomenon,
showing a probable cause of the alignment-broken effect. Inspired by our
findings, we propose Vaccine, a perturbation-aware alignment technique to
mitigate the security risk of users finetuning. The core idea of Vaccine is to
produce invariant hidden embeddings by progressively adding crafted
perturbation to them in the alignment phase. This enables the embeddings to
withstand harmful perturbation from un-sanitized user data in the finetuning
phase. Our results on open source mainstream LLMs (e.g., Llama2, Opt, Vicuna)
demonstrate that Vaccine can boost the robustness of alignment against harmful
prompts induced embedding drift while reserving reasoning ability towards
benign prompts. Our code is available at
\url{https://github.com/git-disl/Vaccine}.
- Abstract(参考訳): ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントブロッキングモデルを生成することができる。
我々は経験的解析を行い,アライメント・ブロッケン効果の帰結を示唆する現象である \textit{harmful embedded drift} を解明する。
本稿では,ユーザのセキュリティリスクを軽減するために,摂動認識アライメント技術であるVaccineを提案する。
Vaccineの中核となる考え方は、アライメントフェーズにおいて、職人的な摂動を徐々に加えることで、不変な隠れ埋め込みを作り出すことである。
これにより、埋め込みは、微調整フェーズにおける不衛生なユーザデータからの有害な摂動に耐えることができる。
オープンソース主流のllm(例えばllama2, opt, vicuna)における結果から,ワクチンは有害なプロンプトによる埋没ドリフトに対するアライメントの頑健性を高めつつ,良性プロンプトに対する推論能力を維持することができることが示されている。
私たちのコードは \url{https://github.com/git-disl/Vaccine} で利用可能です。
関連論文リスト
- Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation [7.945893812374361]
データフィルタリングにおいて、純粋にモデレーションガードレールに頼ることは信頼性がないことを示す。
提案手法はウイルスと呼ばれ,有害なデータをわずかに修正することで容易にガードレールのモデレーションを回避できる。
実験の結果,ウイルスに最適化された有害データは,最大100%の漏出比でガードレールで検出できないことがわかった。
論文 参考訳(メタデータ) (2025-01-29T06:24:58Z) - NLSR: Neuron-Level Safety Realignment of Large Language Models Against Harmful Fine-Tuning [37.024666077902225]
ユーザによってアップロードされた悪意のあるデータのごく一部は、微調整プロセスを微妙に操作できるため、アライメントが壊れたモデルになる。
既存の微調整攻撃に対抗する方法は、典型的にはかなりの計算資源を必要とする。
textbfNeuron-textbfLevel textbfSafety textbfRealignmentを提案する。
論文 参考訳(メタデータ) (2024-12-17T02:59:04Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning [7.9447287301860445]
大規模言語モデル(LLM)は、害のある微調整攻撃(citeqi2023fine)に対して脆弱である。
既存の緩和戦略には、アライメントステージソリューション citehuang2024vaccine、rosati2024representation、微調整ステージソリューション citehuang2024lazy、mukhoti2023fineが含まれる。
我々は、textbftextitagsticに留まらず、微調整後のステージソリューションであるAntidoteを提案する。
論文 参考訳(メタデータ) (2024-08-18T21:45:03Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models! [52.0855711767075]
EvoSeedは、フォトリアリスティックな自然対向サンプルを生成するための進化戦略に基づくアルゴリズムフレームワークである。
我々は,CMA-ESを用いて初期種ベクトルの探索を最適化し,条件付き拡散モデルで処理すると,自然逆数サンプルをモデルで誤分類する。
実験の結果, 生成した対向画像は画像品質が高く, 安全分類器を通過させることで有害なコンテンツを生成する懸念が高まっていることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:39:29Z) - Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections [17.49244337226907]
バックドアインジェクションにより,大規模言語モデルに対してステルスと永続的不整合を行うことが可能であることを示す。
提案したステルスと持続的不整合は、再整合防御に対する強い持続性を維持しつつ、安全性評価に合格することができる。
論文 参考訳(メタデータ) (2023-11-15T23:52:05Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。