論文の概要: Removing RLHF Protections in GPT-4 via Fine-Tuning
- arxiv url: http://arxiv.org/abs/2311.05553v1
- Date: Thu, 9 Nov 2023 17:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:12:04.189451
- Title: Removing RLHF Protections in GPT-4 via Fine-Tuning
- Title(参考訳): 微細調整によるGPT-4のRLHF保護除去
- Authors: Qiusi Zhan, Richard Fang, Rohan Bindu, Akul Gupta, Tatsunori
Hashimoto, Daniel Kang
- Abstract要約: 微調整により、攻撃者は340のサンプルと95%の成功率でRLHF保護を除去できる。
我々は,RLHF保護の除去は,非検閲出力の有用性を低下させるものではないことを示した。
- 参考スコア(独自算出の注目度): 31.704578980721003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) have increased in their capabilities, so does
their potential for dual use. To reduce harmful outputs, produces and vendors
of LLMs have used reinforcement learning with human feedback (RLHF). In tandem,
LLM vendors have been increasingly enabling fine-tuning of their most powerful
models. However, concurrent work has shown that fine-tuning can remove RLHF
protections. We may expect that the most powerful models currently available
(GPT-4) are less susceptible to fine-tuning attacks.
In this work, we show the contrary: fine-tuning allows attackers to remove
RLHF protections with as few as 340 examples and a 95% success rate. These
training examples can be automatically generated with weaker models. We further
show that removing RLHF protections does not decrease usefulness on
non-censored outputs, providing evidence that our fine-tuning strategy does not
decrease usefulness despite using weaker models to generate training data. Our
results show the need for further research on protections on LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)の能力が向上するにつれ、デュアル利用の可能性も高まっている。
有害な出力を減らすため、LLMの製造と販売業者は人間フィードバックによる強化学習(RLHF)を使用している。
LLMベンダーはますます、最も強力なモデルの微調整を可能にしている。
しかし、同時に行われた研究は、微調整がRLHF保護を除去できることを示した。
現在利用可能な最も強力なモデル(GPT-4)は、微調整攻撃の影響を受けにくいだろう。
細調整により、攻撃者は340のサンプルと95%の成功率でRLHF保護を除去できる。
これらのトレーニング例は、より弱いモデルで自動的に生成できる。
さらに,RLHF保護の除去は非検閲出力の有用性を低下させるものではないことを示し,我々の微調整戦略がトレーニングデータを生成するために弱いモデルを用いても有用性を低下させないことを示す。
以上の結果から,LLMの保護に関するさらなる研究の必要性が示唆された。
関連論文リスト
- Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。
AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。
本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Increased LLM Vulnerabilities from Fine-tuning and Quantization [0.0]
大規模言語モデル(LLM)は非常に人気があり、多くのドメインでユースケースが発見されている。
LLMは、ジェイルブレイク、インジェクション攻撃、プライバシー漏洩攻撃など、さまざまなタイプの攻撃に対して脆弱である。
細調整と量子化により脱獄抵抗が大幅に減少し,LSMの脆弱性が増大することを示した。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - Using Hallucinations to Bypass GPT4's Filter [0.0]
本稿では,RLHF前の動作に逆転するように微調整したバージョンを操作する新しい手法を提案する。
このエクスプロイトは現在、GPT4、Claude Sonnet、および(ある程度は)Inflection-2.5で動作する。
論文 参考訳(メタデータ) (2024-02-16T17:02:53Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z) - RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from
Fine-grained Correctional Human Feedback [103.08766858584049]
RLHF-Vは、微粒な人間のフィードバックから行動アライメントを通じてMLLMの信頼性を高める。
自動評価と人的評価の両方で5つのベンチマーク実験を行った結果、RLHF-Vはより信頼性の高いMLLM動作を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-12-01T11:36:08Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z) - Beyond Training Objectives: Interpreting Reward Model Divergence in
Large Language Models [8.15890412446096]
人間のフィードバックからの強化学習によって微調整された大規模言語モデル(LLM)は、より広くデプロイされている。
我々は、高退化世代をもたらすLLMに起こる変化を指すために、$textitImplicit Reward Model$ (IRM) という用語を造った。
論文 参考訳(メタデータ) (2023-10-12T09:36:03Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。
我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:06:06Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。