Fugu-MT 論文翻訳(概要): Removing RLHF Protections in GPT-4 via Fine-Tuning

論文の概要: Removing RLHF Protections in GPT-4 via Fine-Tuning

arxiv url: http://arxiv.org/abs/2311.05553v1
Date: Thu, 9 Nov 2023 17:54:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 14:12:04.189451
Title: Removing RLHF Protections in GPT-4 via Fine-Tuning
Title（参考訳）: 微細調整によるGPT-4のRLHF保護除去
Authors: Qiusi Zhan, Richard Fang, Rohan Bindu, Akul Gupta, Tatsunori Hashimoto, Daniel Kang
Abstract要約: 微調整により、攻撃者は340のサンプルと95%の成功率でRLHF保護を除去できる。我々は,RLHF保護の除去は,非検閲出力の有用性を低下させるものではないことを示した。
参考スコア（独自算出の注目度）: 31.704578980721003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) have increased in their capabilities, so does their potential for dual use. To reduce harmful outputs, produces and vendors of LLMs have used reinforcement learning with human feedback (RLHF). In tandem, LLM vendors have been increasingly enabling fine-tuning of their most powerful models. However, concurrent work has shown that fine-tuning can remove RLHF protections. We may expect that the most powerful models currently available (GPT-4) are less susceptible to fine-tuning attacks. In this work, we show the contrary: fine-tuning allows attackers to remove RLHF protections with as few as 340 examples and a 95% success rate. These training examples can be automatically generated with weaker models. We further show that removing RLHF protections does not decrease usefulness on non-censored outputs, providing evidence that our fine-tuning strategy does not decrease usefulness despite using weaker models to generate training data. Our results show the need for further research on protections on LLMs.
Abstract（参考訳）: 大規模言語モデル(llm)の能力が向上するにつれ、デュアル利用の可能性も高まっている。有害な出力を減らすため、LLMの製造と販売業者は人間フィードバックによる強化学習(RLHF)を使用している。 LLMベンダーはますます、最も強力なモデルの微調整を可能にしている。しかし、同時に行われた研究は、微調整がRLHF保護を除去できることを示した。現在利用可能な最も強力なモデル(GPT-4)は、微調整攻撃の影響を受けにくいだろう。細調整により、攻撃者は340のサンプルと95%の成功率でRLHF保護を除去できる。これらのトレーニング例は、より弱いモデルで自動的に生成できる。さらに,RLHF保護の除去は非検閲出力の有用性を低下させるものではないことを示し,我々の微調整戦略がトレーニングデータを生成するために弱いモデルを用いても有用性を低下させないことを示す。以上の結果から,LLMの保護に関するさらなる研究の必要性が示唆された。

関連論文リスト

Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models [15.218318229687242]
大規模言語モデルにおける極端なアクティベーションアウトレイアは量子化性能を著しく低下させる。生成を積極的に防止する実用的なガイドラインであるOutlier-Safe Pre-Training (OSP)を紹介した。我々の研究は、アウトリーチはLLMに固有のものではなく、トレーニング戦略の結果であることを示した。
論文参考訳（メタデータ） (2025-06-24T15:03:57Z)
Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization [0.0]
悪意のあるRL微調整は、優れた効率で安全ガードレールを解体する。監督された微調整を狙った既存の防御は効果がない。我々は、RL微調整攻撃に対して特別に設計された最初の防御フレームワークであるReward Neutralizationを紹介する。
論文参考訳（メタデータ） (2025-05-07T17:18:48Z)
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文参考訳（メタデータ） (2025-02-20T12:31:03Z)
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文参考訳（メタデータ） (2025-01-30T02:47:09Z)
Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。 RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文参考訳（メタデータ） (2024-12-08T17:19:48Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-10-02T13:12:13Z)
Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs [13.03032975937872]
大きな言語モデル(LLM)は、しばしば望ましくない方法で振る舞うように、明示的に微調整されないようにすることができる。レッドチーム、モデル編集、解釈可能性に関する最近の研究は、この課題が(逆境的な)微調整が望ましくない能力を排除するのではなく、いかに抑制するかに起因していることを示唆している。
論文参考訳（メタデータ） (2024-07-22T11:19:14Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文参考訳（メタデータ） (2024-05-23T13:51:55Z)
Using Hallucinations to Bypass GPT4's Filter [0.0]
本稿では,RLHF前の動作に逆転するように微調整したバージョンを操作する新しい手法を提案する。このエクスプロイトは現在、GPT4、Claude Sonnet、および(ある程度は)Inflection-2.5で動作する。
論文参考訳（メタデータ） (2024-02-16T17:02:53Z)
Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか? 弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文参考訳（メタデータ） (2023-12-14T23:07:33Z)
Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。 LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-02T09:18:21Z)
Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文参考訳（メタデータ） (2023-05-09T17:06:06Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。