論文の概要: Immunization against harmful fine-tuning attacks
- arxiv url: http://arxiv.org/abs/2402.16382v1
- Date: Mon, 26 Feb 2024 08:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:02:12.725498
- Title: Immunization against harmful fine-tuning attacks
- Title(参考訳): 有害な微調整攻撃に対する免疫
- Authors: Domenic Rosati, Jan Wehner, Kai Williams, {\L}ukasz Bartoszcze, Jan
Batzner, Hassan Sajjad, Frank Rudzicz
- Abstract要約: 本稿では,アライメント回避と微調整攻撃から発生した脅威モデルを提案する。
免疫条件」と呼ばれるLSMにおける有害微調整に対する効果的な防御条件のセットを提案する。
LLama2-7b-chatを接種するために, 逆行性障害の初期成績を実験的に示す。
- 参考スコア(独自算出の注目度): 23.08024778424255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approaches to aligning large language models (LLMs) with human values has
focused on correcting misalignment that emerges from pretraining. However, this
focus overlooks another source of misalignment: bad actors might purposely
fine-tune LLMs to achieve harmful goals. In this paper, we present an emerging
threat model that has arisen from alignment circumvention and fine-tuning
attacks. However, lacking in previous works is a clear presentation of the
conditions for effective defence. We propose a set of conditions for effective
defence against harmful fine-tuning in LLMs called "Immunization conditions,"
which help us understand how we would construct and measure future defences.
Using this formal framework for defence, we offer a synthesis of different
research directions that might be persued to prevent harmful fine-tuning
attacks and provide a demonstration of how to use these conditions
experimentally showing early results of using an adversarial loss to immunize
LLama2-7b-chat.
- Abstract(参考訳): 大規模言語モデル(LLM)と人的価値の整合化へのアプローチは、事前学習から生じるミスアライメントの修正に重点を置いている。
しかし、この焦点は、悪役が有害な目標を達成するために故意に微調整のLSMを作らせるという、別の不一致の原因を見落としている。
本稿では,アライメント回避と微調整攻撃から生じる新たな脅威モデルを提案する。
しかし、過去の作品に欠けていることは、効果的な防御の条件を明確に示している。
我々は,LLMにおける有害な微調整に対する効果的な防御のための一連の条件を「免疫条件」と呼び,今後の防衛をいかに構築し,測定するかを理解するのに役立てる。
防衛のためのこの形式的枠組みを用いて,有害な微調整攻撃を防止するために想定される異なる研究方向の合成と,llama2-7b-chatの免疫化に敵意損失を用いた初期結果を実験的に示す方法の実証を提供する。
関連論文リスト
- Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework [20.82486620973901]
Bergeronは、大規模言語モデルの攻撃に対する堅牢性を改善するために設計されたフレームワークである。
有害なコンテンツのアウトプットを監視しながら、プライマリモデルを着信攻撃から保護する方がよい。
経験的分析により、既存のアライメントトレーニングでモデルを補完するためにBergeronを使用することで、複数の商用およびオープンソース LLM の堅牢性と安全性を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-11-16T07:31:18Z) - Semantic-Preserving Adversarial Code Comprehension [75.76118224437974]
本稿では,セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アタック(SPACE)を提案する。
実験と分析により、SPACEは、コードに対するPrLMのパフォーマンスを高めながら、最先端の攻撃に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-09-12T10:32:51Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Evaluating the Adversarial Robustness of Adaptive Test-time Defenses [60.55448652445904]
このような適応型テストタイムディフェンスを分類し、その潜在的なメリットと欠点を説明します。
残念なことに、適切な評価を行うと、静的モデルが大幅に改善されることはない。
推論コストを同時に増加しながら、基盤となる静的モデルを弱めるものもあります。
論文 参考訳(メタデータ) (2022-02-28T12:11:40Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - Adversarial robustness via stochastic regularization of neural
activation sensitivity [24.02105949163359]
両防衛目標を同時に扱う新しい防衛機構を提案する。
損失面の勾配を平坦化し、逆例を見つけるのが難しくなる。
さらに、ジャコビアン正則化を利用して、正しく分類された入力から決定を遠ざける。
論文 参考訳(メタデータ) (2020-09-23T19:31:55Z) - Defending Regression Learners Against Poisoning Attacks [25.06658793731661]
N-LIDと呼ばれる新しい局所固有次元(LID)に基づく測度を導入し,その近傍データ点のLIDの局所偏差を測定する。
N-LIDは、正常なサンプルから有毒なサンプルを識別し、攻撃者を仮定しないN-LIDベースの防御アプローチを提案する。
提案した防御機構は,予測精度(未固定リッジモデルと比較して最大76%低いMSE)とランニング時間において,より優れることを示す。
論文 参考訳(メタデータ) (2020-08-21T03:02:58Z) - On Adaptive Attacks to Adversarial Example Defenses [123.32678153377915]
本稿では、敵の事例に対して、防御に対する適応攻撃を行うために必要な方法論とアプローチを概説する。
これらの分析が、敵の事例に対して適切な防御攻撃を行うためのガイダンスとして役立てられることを期待している。
論文 参考訳(メタデータ) (2020-02-19T18:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。