論文の概要: Immunization against harmful fine-tuning attacks
- arxiv url: http://arxiv.org/abs/2402.16382v2
- Date: Thu, 03 Oct 2024 16:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:38.489705
- Title: Immunization against harmful fine-tuning attacks
- Title(参考訳): 有害な微調整攻撃に対する免疫
- Authors: Domenic Rosati, Jan Wehner, Kai Williams, Łukasz Bartoszcze, Jan Batzner, Hassan Sajjad, Frank Rudzicz,
- Abstract要約: 大きな言語モデル(LLM)は、有害なテキスト生成を防ぐための安全ガードで訓練されることが多い。
しかし、有害なデータセット上でLLMを微調整することで、そのような安全トレーニングを除去することができる。
我々は「免疫」条件と呼ばれる攻撃者の訓練予算に基づく正式な枠組みを導入する。
- 参考スコア(独自算出の注目度): 21.97813820548174
- License:
- Abstract: Large Language Models (LLMs) are often trained with safety guards intended to prevent harmful text generation. However, such safety training can be removed by fine-tuning the LLM on harmful datasets. While this emerging threat (harmful fine-tuning attacks) has been characterized by previous work, there is little understanding of how we should proceed in constructing and validating defenses against these attacks especially in the case where defenders would not have control of the fine-tuning process. We introduce a formal framework based on the training budget of an attacker which we call "Immunization" conditions. Using a formal characterisation of the harmful fine-tuning problem, we provide a thorough description of what a successful defense must comprise of and establish a set of guidelines on how rigorous defense research that gives us confidence should proceed.
- Abstract(参考訳): 大きな言語モデル(LLM)は、有害なテキスト生成を防ぐための安全ガードで訓練されることが多い。
しかし、有害なデータセット上でLLMを微調整することで、そのような安全トレーニングを除去することができる。
この出現する脅威(有害な微調整攻撃)は、以前の研究によって特徴づけられているが、特に守備側が微調整過程を制御できない場合において、これらの攻撃に対する防御の構築と検証をどのように進めるかについては、ほとんど理解されていない。
我々は「免疫」条件と呼ばれる攻撃者の訓練予算に基づく正式な枠組みを導入する。
有害な微調整問題の形式的特徴化を用いて、我々は、成功している防衛がどんな構成でなければならないのかを徹底的に説明し、我々の信頼を与える厳密な防衛研究がいかに進むべきかについてのガイドラインを策定する。
関連論文リスト
- Defending against Reverse Preference Attacks is Difficult [26.872318173182414]
大きな言語モデル(LLM)は、有害なデータセットに対する教師付き微調整(SFT)のようなトレーニング時の攻撃に対して脆弱である。
本研究では,LLMが人間からのフィードバックから強化学習を行う際に,相手の報酬を用いて有害な行動を学習できるようにするために,Reverse Preference Attacks (RPA)を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - Turning Generative Models Degenerate: The Power of Data Poisoning Attacks [10.36389246679405]
悪意のある俳優は、毒殺攻撃を通じてバックドアを導入し、望ましくないアウトプットを発生させることができる。
本研究では,大規模言語モデルの微調整段階を標的とした多種多様な中毒技術について,PEFT(Efficient Fine-Tuning)法を用いて検討する。
本研究は,PEFTによる微調整中にNLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチである。
論文 参考訳(メタデータ) (2024-07-17T03:02:15Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。
我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:19:25Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models [51.85781332922943]
フェデレートラーニング(FL)は、複数のパーティが直接データ共有を必要とせずに、共同で大きな言語モデル(LLM)を微調整することを可能にする。
我々は、シンプルでステルス的で効果的な安全攻撃手法を提案することにより、FedITにおける安全性アライメントの脆弱性を初めて明らかにした。
論文 参考訳(メタデータ) (2024-06-15T13:24:22Z) - Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。
本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文 参考訳(メタデータ) (2024-05-23T13:51:55Z) - Can Adversarial Training Be Manipulated By Non-Robust Features? [64.73107315313251]
もともとテストタイムの敵の例に抵抗するために設計された対人訓練は、トレーニング時間アベイラビリティーアタックの緩和に有望であることが示されている。
我々は、トレーニングデータをわずかに摂動させることで、堅牢な可用性を阻害することを目的とした、安定性攻撃と呼ばれる新しい脅威モデルを特定する。
この脅威の下では、従来の防衛予算$epsilon$による敵の訓練が、単純な統計的条件下でテストロバスト性を提供するのに確実に失敗することを発見した。
論文 参考訳(メタデータ) (2022-01-31T16:25:25Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - On Adaptive Attacks to Adversarial Example Defenses [123.32678153377915]
本稿では、敵の事例に対して、防御に対する適応攻撃を行うために必要な方法論とアプローチを概説する。
これらの分析が、敵の事例に対して適切な防御攻撃を行うためのガイダンスとして役立てられることを期待している。
論文 参考訳(メタデータ) (2020-02-19T18:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。