論文の概要: How to Mitigate Overfitting in Weak-to-strong Generalization?
- arxiv url: http://arxiv.org/abs/2503.04249v1
- Date: Thu, 06 Mar 2025 09:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:08.988203
- Title: How to Mitigate Overfitting in Weak-to-strong Generalization?
- Title(参考訳): 弱みと強みの一般化におけるオーバーフィッティングの緩和法
- Authors: Junhao Shi, Qinyuan Cheng, Zhaoye Fei, Yining Zheng, Qipeng Guo, Xipeng Qiu,
- Abstract要約: Weak-to-strongの一般化は、弱いスーパーバイザーを通して強いモデルの能力を引き出すことを目的としている。
強いモデルは弱強一般化において顕著な過剰適合を示す。
本稿では,監視信号の品質と入力質問の品質を同時に向上する2段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.37526669608372
- License:
- Abstract: Aligning powerful AI models on tasks that surpass human evaluation capabilities is the central problem of \textbf{superalignment}. To address this problem, weak-to-strong generalization aims to elicit the capabilities of strong models through weak supervisors and ensure that the behavior of strong models aligns with the intentions of weak supervisors without unsafe behaviors such as deception. Although weak-to-strong generalization exhibiting certain generalization capabilities, strong models exhibit significant overfitting in weak-to-strong generalization: Due to the strong fit ability of strong models, erroneous labels from weak supervisors may lead to overfitting in strong models. In addition, simply filtering out incorrect labels may lead to a degeneration in question quality, resulting in a weak generalization ability of strong models on hard questions. To mitigate overfitting in weak-to-strong generalization, we propose a two-stage framework that simultaneously improves the quality of supervision signals and the quality of input questions. Experimental results in three series of large language models and two mathematical benchmarks demonstrate that our framework significantly improves PGR compared to naive weak-to-strong generalization, even achieving up to 100\% PGR on some models.
- Abstract(参考訳): 人間の評価能力を超えたタスク上の強力なAIモデルをアライメントすることは、‘textbf{superalignment}’の中心的な問題である。
この問題に対処するために、弱強一般化は、弱いスーパーバイザーを通して強モデルの能力を導き、強モデルの振る舞いが、詐欺のような安全でない振る舞いを伴わない弱いスーパーバイザーの意図と一致することを保証することを目的としている。
弱強一般化はある種の一般化能力を示すが、強いモデルは弱強一般化において顕著な過適合を示す: 強いモデルの強い適合能力のため、弱いスーパーバイザーからの誤ラベルは強いモデルの過適合をもたらす可能性がある。
さらに、単に誤ったラベルをフィルタリングするだけで、問題の品質が低下し、ハードな問題に対する強力なモデルの一般化能力が弱くなる可能性がある。
弱強一般化における過度な適合を緩和するために,教師信号の品質と入力質問の品質を同時に改善する2段階フレームワークを提案する。
3つの大規模言語モデルと2つの数学的ベンチマークによる実験結果から、我々のフレームワークは、いくつかのモデルで最大100倍のPGRを達成できたとしても、単純で強い一般化に比べてPGRを著しく改善することが示された。
関連論文リスト
- Understanding the Capabilities and Limitations of Weak-to-Strong Generalization [40.793180521446466]
弱強一般化に関する理論的知見を提供する。
弱いモデルは強力な一般化性能を示し、よく校正された予測を維持するべきである。
我々は、Charikar et al. (2024) の業績を、Kullback-Leibler の発散に基づく損失関数に拡張する。
論文 参考訳(メタデータ) (2025-02-03T15:48:28Z) - Debate Helps Weak-to-Strong Generalization [68.70065254564642]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。
議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。
OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文 参考訳(メタデータ) (2025-01-21T05:36:13Z) - Generalizing Trust: Weak-to-Strong Trustworthiness in Language Models [29.11210975481761]
より弱いモデルの出力を微調整した場合に、より強いモデルが信頼性特性を継承できるかどうかを検討する。
我々の研究は、弱強一般化の可能性と限界に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-31T12:40:02Z) - Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。
弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文 参考訳(メタデータ) (2024-06-17T11:36:39Z) - Quantifying the Gain in Weak-to-Strong Generalization [14.453654853392619]
より弱いモデルよりも強いモデルによって達成される性能の向上は、弱いモデルによって生成されるラベル上の強モデルによって引き起こされる不適合誤差によって定量化されることを示す。
例えば、強いモデルが弱いモデルよりも改善する量を予測することができ、また、そのミスフィットエラーに基づいて、強いモデルをトレーニングするために異なる弱いモデルを選択することができる。
論文 参考訳(メタデータ) (2024-05-24T00:14:16Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。