論文の概要: Removing RLHF Protections in GPT-4 via Fine-Tuning
- arxiv url: http://arxiv.org/abs/2311.05553v1
- Date: Thu, 9 Nov 2023 17:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:12:04.189451
- Title: Removing RLHF Protections in GPT-4 via Fine-Tuning
- Title(参考訳): 微細調整によるGPT-4のRLHF保護除去
- Authors: Qiusi Zhan, Richard Fang, Rohan Bindu, Akul Gupta, Tatsunori
Hashimoto, Daniel Kang
- Abstract要約: 微調整により、攻撃者は340のサンプルと95%の成功率でRLHF保護を除去できる。
我々は,RLHF保護の除去は,非検閲出力の有用性を低下させるものではないことを示した。
- 参考スコア(独自算出の注目度): 31.704578980721003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) have increased in their capabilities, so does
their potential for dual use. To reduce harmful outputs, produces and vendors
of LLMs have used reinforcement learning with human feedback (RLHF). In tandem,
LLM vendors have been increasingly enabling fine-tuning of their most powerful
models. However, concurrent work has shown that fine-tuning can remove RLHF
protections. We may expect that the most powerful models currently available
(GPT-4) are less susceptible to fine-tuning attacks.
In this work, we show the contrary: fine-tuning allows attackers to remove
RLHF protections with as few as 340 examples and a 95% success rate. These
training examples can be automatically generated with weaker models. We further
show that removing RLHF protections does not decrease usefulness on
non-censored outputs, providing evidence that our fine-tuning strategy does not
decrease usefulness despite using weaker models to generate training data. Our
results show the need for further research on protections on LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)の能力が向上するにつれ、デュアル利用の可能性も高まっている。
有害な出力を減らすため、LLMの製造と販売業者は人間フィードバックによる強化学習(RLHF)を使用している。
LLMベンダーはますます、最も強力なモデルの微調整を可能にしている。
しかし、同時に行われた研究は、微調整がRLHF保護を除去できることを示した。
現在利用可能な最も強力なモデル(GPT-4)は、微調整攻撃の影響を受けにくいだろう。
細調整により、攻撃者は340のサンプルと95%の成功率でRLHF保護を除去できる。
これらのトレーニング例は、より弱いモデルで自動的に生成できる。
さらに,RLHF保護の除去は非検閲出力の有用性を低下させるものではないことを示し,我々の微調整戦略がトレーニングデータを生成するために弱いモデルを用いても有用性を低下させないことを示す。
以上の結果から,LLMの保護に関するさらなる研究の必要性が示唆された。
関連論文リスト
- Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。
本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。
私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T13:12:13Z) - Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs [13.03032975937872]
大きな言語モデル(LLM)は、しばしば望ましくない方法で振る舞うように、明示的に微調整されないようにすることができる。
レッドチーム、モデル編集、解釈可能性に関する最近の研究は、この課題が(逆境的な)微調整が望ましくない能力を排除するのではなく、いかに抑制するかに起因していることを示唆している。
論文 参考訳(メタデータ) (2024-07-22T11:19:14Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。
本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文 参考訳(メタデータ) (2024-05-23T13:51:55Z) - Using Hallucinations to Bypass GPT4's Filter [0.0]
本稿では,RLHF前の動作に逆転するように微調整したバージョンを操作する新しい手法を提案する。
このエクスプロイトは現在、GPT4、Claude Sonnet、および(ある程度は)Inflection-2.5で動作する。
論文 参考訳(メタデータ) (2024-02-16T17:02:53Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z) - Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。
我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:06:06Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。