論文の概要: Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision
- arxiv url: http://arxiv.org/abs/2312.09390v1
- Date: Thu, 14 Dec 2023 23:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:52:26.329370
- Title: Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision
- Title(参考訳): Weak-to-Strong Generalization:Weak Supervisionによる強力な能力の排除
- Authors: Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner, Bowen Baker, Leo
Gao, Leopold Aschenbrenner, Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan
Leike, Ilya Sutskever, Jeff Wu
- Abstract要約: 超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 55.196139002977525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Widely used alignment techniques, such as reinforcement learning from human
feedback (RLHF), rely on the ability of humans to supervise model behavior -
for example, to evaluate whether a model faithfully followed instructions or
generated safe outputs. However, future superhuman models will behave in
complex ways too difficult for humans to reliably evaluate; humans will only be
able to weakly supervise superhuman models. We study an analogy to this
problem: can weak model supervision elicit the full capabilities of a much
stronger model? We test this using a range of pretrained language models in the
GPT-4 family on natural language processing (NLP), chess, and reward modeling
tasks. We find that when we naively finetune strong pretrained models on labels
generated by a weak model, they consistently perform better than their weak
supervisors, a phenomenon we call weak-to-strong generalization. However, we
are still far from recovering the full capabilities of strong models with naive
finetuning alone, suggesting that techniques like RLHF may scale poorly to
superhuman models without further work. We find that simple methods can often
significantly improve weak-to-strong generalization: for example, when
finetuning GPT-4 with a GPT-2-level supervisor and an auxiliary confidence
loss, we can recover close to GPT-3.5-level performance on NLP tasks. Our
results suggest that it is feasible to make empirical progress today on a
fundamental challenge of aligning superhuman models.
- Abstract(参考訳): 人間のフィードバックからの強化学習(rlhf)のようなアライメント手法は、モデル行動を監視する人間の能力に依存しており、例えば、モデルが忠実に命令に従うか、安全な出力を生成するかを評価する。
しかし、未来のスーパーヒューマンモデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
我々は、自然言語処理(NLP)、チェス、報酬モデリングタスクにおいて、GPT-4ファミリーで事前訓練された言語モデルを用いてこれをテストする。
我々は,弱いモデルによって生成されたラベルに対して,強い事前学習されたモデルを自然に微調整すると,弱いスーパーバイザよりも一貫してパフォーマンスが向上することを見出した。
しかし、我々は、単純な微調整だけで強力なモデルの完全な能力を取り戻すには程遠いので、RLHFのような技術は、それ以上の作業を行わずに超人的なモデルに不十分にスケールできることを示唆している。
例えば、GPT-2レベルのスーパーバイザと補助的な信頼損失でGPT-4を微調整すると、NLPタスクにおけるGPT-3.5レベルのパフォーマンスを回復できる。
この結果から,現在,超人的モデルの整合性に関する基本的な課題について,実証的な進展が可能であることが示唆された。
関連論文リスト
- Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。
弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文 参考訳(メタデータ) (2024-06-17T11:36:39Z) - A statistical framework for weak-to-strong generalization [38.55982453315567]
LLMが超人的能力と人間的フィードバックとの整合性(強弱性)を、その能力を損なうことなく達成できるかどうかは不明である。
これは弱い(非有能な)フィードバックを使ってより強い(より有能な)モデルを訓練する弱い(非有能な)一般化問題の例である。
我々は、事前学習されたLLMから潜在知識を引き出すことにより、弱強一般化が可能であることを証明した。
論文 参考訳(メタデータ) (2024-05-25T13:54:05Z) - Quantifying the Gain in Weak-to-Strong Generalization [14.453654853392619]
より弱いモデルよりも強いモデルによって達成される性能の向上は、弱いモデルによって生成されるラベル上の強モデルによって引き起こされる不適合誤差によって定量化されることを示す。
例えば、強いモデルが弱いモデルよりも改善する量を予測することができ、また、そのミスフィットエラーに基づいて、強いモデルをトレーニングするために異なる弱いモデルを選択することができる。
論文 参考訳(メタデータ) (2024-05-24T00:14:16Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。