論文の概要: Immunization against harmful fine-tuning attacks
- arxiv url: http://arxiv.org/abs/2402.16382v1
- Date: Mon, 26 Feb 2024 08:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:02:12.725498
- Title: Immunization against harmful fine-tuning attacks
- Title(参考訳): 有害な微調整攻撃に対する免疫
- Authors: Domenic Rosati, Jan Wehner, Kai Williams, {\L}ukasz Bartoszcze, Jan
Batzner, Hassan Sajjad, Frank Rudzicz
- Abstract要約: 本稿では,アライメント回避と微調整攻撃から発生した脅威モデルを提案する。
免疫条件」と呼ばれるLSMにおける有害微調整に対する効果的な防御条件のセットを提案する。
LLama2-7b-chatを接種するために, 逆行性障害の初期成績を実験的に示す。
- 参考スコア(独自算出の注目度): 23.08024778424255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approaches to aligning large language models (LLMs) with human values has
focused on correcting misalignment that emerges from pretraining. However, this
focus overlooks another source of misalignment: bad actors might purposely
fine-tune LLMs to achieve harmful goals. In this paper, we present an emerging
threat model that has arisen from alignment circumvention and fine-tuning
attacks. However, lacking in previous works is a clear presentation of the
conditions for effective defence. We propose a set of conditions for effective
defence against harmful fine-tuning in LLMs called "Immunization conditions,"
which help us understand how we would construct and measure future defences.
Using this formal framework for defence, we offer a synthesis of different
research directions that might be persued to prevent harmful fine-tuning
attacks and provide a demonstration of how to use these conditions
experimentally showing early results of using an adversarial loss to immunize
LLama2-7b-chat.
- Abstract(参考訳): 大規模言語モデル(LLM)と人的価値の整合化へのアプローチは、事前学習から生じるミスアライメントの修正に重点を置いている。
しかし、この焦点は、悪役が有害な目標を達成するために故意に微調整のLSMを作らせるという、別の不一致の原因を見落としている。
本稿では,アライメント回避と微調整攻撃から生じる新たな脅威モデルを提案する。
しかし、過去の作品に欠けていることは、効果的な防御の条件を明確に示している。
我々は,LLMにおける有害な微調整に対する効果的な防御のための一連の条件を「免疫条件」と呼び,今後の防衛をいかに構築し,測定するかを理解するのに役立てる。
防衛のためのこの形式的枠組みを用いて,有害な微調整攻撃を防止するために想定される異なる研究方向の合成と,llama2-7b-chatの免疫化に敵意損失を用いた初期結果を実験的に示す方法の実証を提供する。
関連論文リスト
- Defending against Reverse Preference Attacks is Difficult [26.872318173182414]
大きな言語モデル(LLM)は、有害なデータセットに対する教師付き微調整(SFT)のようなトレーニング時の攻撃に対して脆弱である。
本研究では,LLMが人間からのフィードバックから強化学習を行う際に,相手の報酬を用いて有害な行動を学習できるようにするために,Reverse Preference Attacks (RPA)を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - Turning Generative Models Degenerate: The Power of Data Poisoning Attacks [10.36389246679405]
悪意のある俳優は、毒殺攻撃を通じてバックドアを導入し、望ましくないアウトプットを発生させることができる。
本研究では,大規模言語モデルの微調整段階を標的とした多種多様な中毒技術について,PEFT(Efficient Fine-Tuning)法を用いて検討する。
本研究は,PEFTによる微調整中にNLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチである。
論文 参考訳(メタデータ) (2024-07-17T03:02:15Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。
我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:19:25Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models [51.85781332922943]
フェデレートラーニング(FL)は、複数のパーティが直接データ共有を必要とせずに、共同で大きな言語モデル(LLM)を微調整することを可能にする。
我々は、シンプルでステルス的で効果的な安全攻撃手法を提案することにより、FedITにおける安全性アライメントの脆弱性を初めて明らかにした。
論文 参考訳(メタデータ) (2024-06-15T13:24:22Z) - Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。
本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文 参考訳(メタデータ) (2024-05-23T13:51:55Z) - Can Adversarial Training Be Manipulated By Non-Robust Features? [64.73107315313251]
もともとテストタイムの敵の例に抵抗するために設計された対人訓練は、トレーニング時間アベイラビリティーアタックの緩和に有望であることが示されている。
我々は、トレーニングデータをわずかに摂動させることで、堅牢な可用性を阻害することを目的とした、安定性攻撃と呼ばれる新しい脅威モデルを特定する。
この脅威の下では、従来の防衛予算$epsilon$による敵の訓練が、単純な統計的条件下でテストロバスト性を提供するのに確実に失敗することを発見した。
論文 参考訳(メタデータ) (2022-01-31T16:25:25Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - On Adaptive Attacks to Adversarial Example Defenses [123.32678153377915]
本稿では、敵の事例に対して、防御に対する適応攻撃を行うために必要な方法論とアプローチを概説する。
これらの分析が、敵の事例に対して適切な防御攻撃を行うためのガイダンスとして役立てられることを期待している。
論文 参考訳(メタデータ) (2020-02-19T18:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。