Fugu-MT 論文翻訳(概要): Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning

論文の概要: Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning

arxiv url: http://arxiv.org/abs/2402.01109v4
Date: Thu, 22 Aug 2024 04:29:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 19:45:30.435932
Title: Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning
Title（参考訳）: Vaccine: 有害な微調整に対する大規模言語モデルに対する摂動認識アライメント
Authors: Tiansheng Huang, Sihao Hu, Ling Liu,
Abstract要約: ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
参考スコア（独自算出の注目度）: 7.653580388741887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The new paradigm of finetuning-as-a-service introduces a new attack surface for Large Language Models (LLMs): a few harmful data uploaded by users can easily trick the finetuning to produce an alignment-broken model. We conduct an empirical analysis and uncover a \textit{harmful embedding drift} phenomenon, showing a probable cause of the alignment-broken effect. Inspired by our findings, we propose Vaccine, a perturbation-aware alignment technique to mitigate the security risk of users finetuning. The core idea of Vaccine is to produce invariant hidden embeddings by progressively adding crafted perturbation to them in the alignment phase. This enables the embeddings to withstand harmful perturbation from un-sanitized user data in the finetuning phase. Our results on open source mainstream LLMs (e.g., Llama2, Opt, Vicuna) demonstrate that Vaccine can boost the robustness of alignment against harmful prompts induced embedding drift while reserving reasoning ability towards benign prompts. Our code is available at \url{https://github.com/git-disl/Vaccine}.
Abstract（参考訳）: 新しいファインタニング・アズ・ア・サービスというパラダイムでは,大規模言語モデル(LLM)に対する新たな攻撃面が導入されている。実験的な解析を行い,アライメント・ブレイク効果の可能性が示唆された「textit{harmful embedding drift}」現象を解明した。この発見に触発されて,ユーザによる微調整のセキュリティリスクを軽減するために,摂動認識アライメント技術であるVaccineを提案する。 Vaccineの中核となる考え方は、アライメントフェーズにおいて、職人的な摂動を徐々に加えることで、不変な隠れ埋め込みを作り出すことである。これにより、埋め込みは、微調整フェーズにおける不衛生なユーザデータからの有害な摂動に耐えることができる。オープンソースのLLM (Llama2, Opt, Vicuna) 実験の結果,Vacineは良性プロンプトに対する推論能力を保ちながら,有害なプロンプトによる埋め込みドリフトに対するアライメントの堅牢性を高めることができることが示された。私たちのコードは \url{https://github.com/git-disl/Vaccine} で利用可能です。

関連論文リスト

Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler [67.24175911858312]
有害な微調整は、大規模な言語モデルのための微調整・アズ・ア・サービスに重大な安全性のリスクをもたらす。 Bayesian Data Scheduler (BDS) は、アタックシミュレーションを必要としない適応型チューニングステージ防衛戦略である。 BDSは、微調整データセットとアライメントデータセットに基づいて、各データポイントの安全属性の後方分布を学習する。
論文参考訳（メタデータ） (2025-10-31T04:49:37Z)
The Unintended Trade-off of AI Alignment:Balancing Hallucination Mitigation and Safety in LLMs [9.470098715212087]
真実性を高めることは安全性に悪影響を及ぼす本稿では, 事実の精度向上が, 拒否行動の弱化を招きやすいことを示す。スパースオートエンコーダを用いた幻覚特徴から拒絶関連特徴を分離する手法を提案する。
論文参考訳（メタデータ） (2025-10-09T04:30:58Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
A generative approach to LLM harmfulness detection with special red flag tokens [15.796683630119654]
我々はレッドフラッグトークン(rf>)と呼ばれる特別なトークンでモデルの語彙を拡張することを提案する。本発明の安全性訓練方法は、会話中に常に有害な生成分類器にLLMを効果的に増強する。また、入力プロンプトだけでなく、生成された各回答を評価し、サンプリングベースの攻撃に対してより強力な防御を提供する。
論文参考訳（メタデータ） (2025-02-22T21:48:48Z)
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文参考訳（メタデータ） (2025-01-30T02:47:09Z)
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation [7.945893812374361]
データフィルタリングにおいて、純粋にモデレーションガードレールに頼ることは信頼性がないことを示す。提案手法はウイルスと呼ばれ,有害なデータをわずかに修正することで容易にガードレールのモデレーションを回避できる。実験の結果,ウイルスに最適化された有害データは,最大100%の漏出比でガードレールで検出できないことがわかった。
論文参考訳（メタデータ） (2025-01-29T06:24:58Z)
NLSR: Neuron-Level Safety Realignment of Large Language Models Against Harmful Fine-Tuning [37.024666077902225]
ユーザによってアップロードされた悪意のあるデータのごく一部は、微調整プロセスを微妙に操作できるため、アライメントが壊れたモデルになる。既存の微調整攻撃に対抗する方法は、典型的にはかなりの計算資源を必要とする。 textbfNeuron-textbfLevel textbfSafety textbfRealignmentを提案する。
論文参考訳（メタデータ） (2024-12-17T02:59:04Z)
Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文参考訳（メタデータ） (2024-11-30T04:37:38Z)
Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文参考訳（メタデータ） (2024-10-11T14:22:44Z)
Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation [7.945893812374361]
有害な微調整問題 citepqi2023fineは、大規模言語モデルの微細チューニング・アズ・ア・サービスに対して深刻な安全性上の懸念をもたらす。本稿では,この問題を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
論文参考訳（メタデータ） (2024-09-03T03:59:22Z)
Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning [7.9447287301860445]
大規模言語モデル(LLM)は、害のある微調整攻撃(citeqi2023fine)に対して脆弱である。既存の緩和戦略には、アライメントステージソリューション citehuang2024vaccine、rosati2024representation、微調整ステージソリューション citehuang2024lazy、mukhoti2023fineが含まれる。我々は、textbftextitagsticに留まらず、微調整後のステージソリューションであるAntidoteを提案する。
論文参考訳（メタデータ） (2024-08-18T21:45:03Z)
Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文参考訳（メタデータ） (2024-06-28T17:05:46Z)
Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models! [52.0855711767075]
EvoSeedは、フォトリアリスティックな自然対向サンプルを生成するための進化戦略に基づくアルゴリズムフレームワークである。我々は,CMA-ESを用いて初期種ベクトルの探索を最適化し,条件付き拡散モデルで処理すると,自然逆数サンプルをモデルで誤分類する。実験の結果, 生成した対向画像は画像品質が高く, 安全分類器を通過させることで有害なコンテンツを生成する懸念が高まっていることがわかった。
論文参考訳（メタデータ） (2024-02-07T09:39:29Z)
Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections [17.49244337226907]
バックドアインジェクションにより,大規模言語モデルに対してステルスと永続的不整合を行うことが可能であることを示す。提案したステルスと持続的不整合は、再整合防御に対する強い持続性を維持しつつ、安全性評価に合格することができる。
論文参考訳（メタデータ） (2023-11-15T23:52:05Z)
On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。自動データ中毒パイプラインである textitAutoPoison を提案する。結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文参考訳（メタデータ） (2023-06-28T17:54:04Z)
Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文参考訳（メタデータ） (2023-06-26T17:18:44Z)
Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文参考訳（メタデータ） (2023-06-06T14:45:24Z)
IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。 IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文参考訳（メタデータ） (2023-05-25T22:08:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。