論文の概要: Debate Helps Weak-to-Strong Generalization
- arxiv url: http://arxiv.org/abs/2501.13124v1
- Date: Tue, 21 Jan 2025 05:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:31.755625
- Title: Debate Helps Weak-to-Strong Generalization
- Title(参考訳): ディベートがウェック・トゥ・ストロングの一般化に役立つ
- Authors: Hao Lang, Fei Huang, Yongbin Li,
- Abstract要約: 我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。
議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。
OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
- 参考スコア(独自算出の注目度): 68.70065254564642
- License:
- Abstract: Common methods for aligning already-capable models with desired behavior rely on the ability of humans to provide supervision. However, future superhuman models will surpass the capability of humans. Therefore, humans will only be able to weakly supervise superhuman models. This expected deficiency of human evaluation would weaken the safety of future AI systems. Scalable oversight and weak-to-strong generalization are two complementary approaches to tackle this issue. In this paper, we attempt to combine the strengths of these two approaches to further improve alignment. Specifically, we investigate ways of improving human supervision with a strong pretrained model and then supervise the strong model with enhanced weak human supervision. To make iterative empirical progress, we consider an analogy: can we use a strong model to improve weak model supervision and then use it to supervise the strong model? We empirically test it by finetuning a small weak model on ground truth labels with the additional help from a large strong model, and then finetuning the strong model on labels generated by the weak model. We find that debate can assist a weak model in extracting trustworthy information from an untrustworthy strong model, which provides leverage as context on samples when training a weak model. We also show that an ensemble of weak models helps exploit long arguments generated by strong model debaters and obtain a more robust supervision estimate. Extensive experiments on the OpenAI weak-to-strong NLP benchmarks show that the combination approach leads to better alignment, which indicates that debate has the potential to help weak-to-strong generalization.
- Abstract(参考訳): 既に有能なモデルを望ましい行動と整合させる一般的な方法は、人間の監督能力に頼っている。
しかし、未来のスーパーヒューマンモデルは人間の能力を超えるだろう。
したがって、人間はスーパーヒューマンモデルの弱い監督しかできない。
この人的評価の欠如は、将来のAIシステムの安全性を弱めるだろう。
スケーラブルな監視と弱い対強の一般化は、この問題に対処するための2つの補完的なアプローチである。
本稿では,これらの2つのアプローチの強みを組み合わせることで,アライメントをさらに改善する。
具体的には、強い事前訓練モデルを用いて人間の監督を改善する方法を考察し、弱い人間の監督を増強した強いモデルを監督する。
モデル管理の弱さを改善するために強力なモデルを使用して、それを強力なモデルを監視することができるか?
実験では, 弱モデルによって生成されたラベルの強モデルに, 強モデルの追加の助けを借りて, 弱モデル上で小さな弱モデルを微調整し, 実験的に検証する。
議論は、信頼できない強いモデルから信頼できる情報を抽出する際、弱いモデルを訓練する際のサンプルのコンテキストとして活用するのに役立つ。
また、弱いモデルのアンサンブルは、強力なモデル討論者が生み出す長い議論を生かし、より堅牢な監督見積もりを得るのに役立つことを示す。
OpenAIの弱いNLPベンチマークに関する大規模な実験は、この組み合わせのアプローチがより良いアライメントをもたらすことを示しており、議論が弱いNLPの一般化に役立つ可能性があることを示している。
関連論文リスト
- Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model [28.569089876442682]
この研究は弱強一般化に触発され、弱いモデルによって生成されるラベルに強いLMを微調整することで、弱いスーパーバイザーを一貫して上回る。
Weak-to-Strong Preference Optimization (WSPO)を提案し、弱いモデルのアライメント前後の分布差を学習することにより、強力なモデルアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-24T11:06:29Z) - Teaching Models to Balance Resisting and Accepting Persuasion [69.68379406317682]
大規模言語モデル(LLM)は説得に影響を受けやすいため、モデルが対向的インターロケータに直面するとリスクが生じる可能性がある。
モデルを一方だけに最適化すると、もう一方のパフォーマンスが低下することを示す。
PBT(Persuasion-Balanced Training)を導入する。
論文 参考訳(メタデータ) (2024-10-18T16:49:36Z) - Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。
弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文 参考訳(メタデータ) (2024-06-17T11:36:39Z) - Quantifying the Gain in Weak-to-Strong Generalization [14.453654853392619]
より弱いモデルよりも強いモデルによって達成される性能の向上は、弱いモデルによって生成されるラベル上の強モデルによって引き起こされる不適合誤差によって定量化されることを示す。
例えば、強いモデルが弱いモデルよりも改善する量を予測することができ、また、そのミスフィットエラーに基づいて、強いモデルをトレーニングするために異なる弱いモデルを選択することができる。
論文 参考訳(メタデータ) (2024-05-24T00:14:16Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。