論文の概要: Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation
- arxiv url: http://arxiv.org/abs/2406.20053v1
- Date: Fri, 28 Jun 2024 17:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 16:10:57.840429
- Title: Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation
- Title(参考訳): LLM適応の保護への挑戦
- Authors: Danny Halawi, Alexander Wei, Eric Wallace, Tony T. Wang, Nika Haghtalab, Jacob Steinhardt,
- Abstract要約: Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
- 参考スコア(独自算出の注目度): 86.05704141217036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Black-box finetuning is an emerging interface for adapting state-of-the-art language models to user needs. However, such access may also let malicious actors undermine model safety. To demonstrate the challenge of defending finetuning interfaces, we introduce covert malicious finetuning, a method to compromise model safety via finetuning while evading detection. Our method constructs a malicious dataset where every individual datapoint appears innocuous, but finetuning on the dataset teaches the model to respond to encoded harmful requests with encoded harmful responses. Applied to GPT-4, our method produces a finetuned model that acts on harmful instructions 99% of the time and avoids detection by defense mechanisms such as dataset inspection, safety evaluations, and input/output classifiers. Our findings question whether black-box finetuning access can be secured against sophisticated adversaries.
- Abstract(参考訳): Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
しかし、そのようなアクセスは、悪意のあるアクターがモデルの安全性を損なう可能性がある。
ファインタニングインタフェースの保護という課題を実証するために,検出を回避しながらファインタニングによりモデル安全性を損なう手法である秘密の悪意のあるファインタニングを導入する。
提案手法は,各データポイントが無害に見える悪質なデータセットを構築するが,データセットの微調整によって,有害な応答を符号化した有害な要求に対する応答をモデルに教える。
GPT-4に適用した本手法は, 有害な命令を99%処理し, データセット検査, 安全性評価, 入出力分類器などの防御機構による検出を回避した微調整モデルを生成する。
本研究は,ブラックボックスファインタニングアクセスを高度な敵に対して確保できるかどうかを疑うものである。
関連論文リスト
- Hide in Plain Sight: Clean-Label Backdoor for Auditing Membership Inference [16.893873979953593]
本研究では,ステルスデータ監査のための新しいクリーンラベルバックドア方式を提案する。
我々のアプローチでは、ターゲットモデルの振る舞いを模倣するシャドウモデルによって生成される最適なトリガを用いる。
提案手法は,ブラックボックスアクセスによるロバストなデータ監査を可能にし,多様なデータセット間で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-11-24T20:56:18Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Certified Robustness to Data Poisoning in Gradient-Based Training [10.79739918021407]
我々は、潜在的に操作されたデータでトレーニングされたモデルの振る舞いを証明可能な保証を提供する最初のフレームワークを開発する。
我々の枠組みは、標的外および標的の毒、およびバックドア攻撃に対する堅牢性を証明している。
我々は、エネルギー消費、医療画像、自律運転などの応用から、複数の実世界のデータセットに対するアプローチを実証する。
論文 参考訳(メタデータ) (2024-06-09T06:59:46Z) - Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment [56.2017039028998]
言語モデル・アズ・ア・サービス(LM)のファインチューニングは、特にファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する新たな脅威をもたらす
本稿では,バックドア攻撃の概念と類似性から着想を得たバックドア強化安全アライメント手法を提案する。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、オリジナルのアライメントモデルと同じような安全性性能を達成することを実証している。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。