論文の概要: Selective Weak-to-Strong Generalization
- arxiv url: http://arxiv.org/abs/2511.14166v1
- Date: Tue, 18 Nov 2025 06:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.959658
- Title: Selective Weak-to-Strong Generalization
- Title(参考訳): Selective Weak-to-Strong Generalization
- Authors: Hao Lang, Fei Huang, Yongbin Li,
- Abstract要約: 不要な場合の弱い監視を避けるために,選択的なW2SGフレームワークを提案する。
我々は二項分類器P(IK)を訓練し、強いモデルが答えられる質問を特定し、その自己生成ラベルをアライメントに使用する。
- 参考スコア(独自算出の注目度): 75.5234414246513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Future superhuman models will surpass the ability of humans and humans will only be able to \textit{weakly} supervise superhuman models. To alleviate the issue of lacking high-quality data for model alignment, some works on weak-to-strong generalization (W2SG) finetune a strong pretrained model with a weak supervisor so that it can generalize beyond weak supervision. However, the invariable use of weak supervision in existing methods exposes issues in robustness, with a proportion of weak labels proving harmful to models. In this paper, we propose a selective W2SG framework to avoid using weak supervision when unnecessary. We train a binary classifier P(IK) to identify questions that a strong model can answer and use its self-generated labels for alignment. We further refine weak labels with a graph smoothing method. Extensive experiments on three benchmarks show that our method consistently outperforms competitive baselines. Further analyses show that P(IK) can generalize across tasks and difficulties, which indicates selective W2SG can help superalignment.
- Abstract(参考訳): 未来のスーパーヒューマンモデルは、人間の能力を超えるだろうし、人間は超人間モデルを監督できるだけだ。
モデルアライメントのための高品質なデータ不足の問題を緩和するために、弱い監督者を持つ強い事前訓練されたモデルである弱強一般化(W2SG)ファインチューン(英語版)の研究がある。
しかし、既存の手法における弱い監督の不可避な使用は、モデルに有害であることを示す弱いラベルの割合で、堅牢性の問題を露呈する。
本稿では、不要な場合の弱い監視を避けるために、選択的なW2SGフレームワークを提案する。
我々は二項分類器P(IK)を訓練し、強いモデルが答えられる質問を特定し、その自己生成ラベルをアライメントに使用する。
グラフ平滑化法により弱ラベルをさらに洗練する。
3つのベンチマークの大規模な実験により、我々の手法は競争基準線を一貫して上回ることを示した。
さらに分析したところ、P(IK)はタスクや困難をまたいで一般化でき、選択的なW2SGがスーパーアライメントに役立つことが示されている。
関連論文リスト
- Weak-to-Strong Generalization under Distribution Shifts [6.711930932187631]
強弱から強弱の一般化フレームワークであるRAVENを提案する。
RAVENは強いモデルのパラメータに加えて弱いモデルの最適な組み合わせを学ぶ。
我々の結果は、RAVENがより正確な弱いモデルにより高い重みを割り当て、信頼に値する監督を自動的に識別する能力を示すことを示している。
論文 参考訳(メタデータ) (2025-10-24T10:46:50Z) - How to Mitigate Overfitting in Weak-to-strong Generalization? [50.37526669608372]
Weak-to-strongの一般化は、弱いスーパーバイザーを通して強いモデルの能力を引き出すことを目的としている。
強いモデルは弱強一般化において顕著な過剰適合を示す。
本稿では,監視信号の品質と入力質問の品質を同時に向上する2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:32:39Z) - Debate Helps Weak-to-Strong Generalization [68.70065254564642]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。
議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。
OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文 参考訳(メタデータ) (2025-01-21T05:36:13Z) - Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。
弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文 参考訳(メタデータ) (2024-06-17T11:36:39Z) - Quantifying the Gain in Weak-to-Strong Generalization [14.453654853392619]
より弱いモデルよりも強いモデルによって達成される性能の向上は、弱いモデルによって生成されるラベル上の強モデルによって引き起こされる不適合誤差によって定量化されることを示す。
例えば、強いモデルが弱いモデルよりも改善する量を予測することができ、また、そのミスフィットエラーに基づいて、強いモデルをトレーニングするために異なる弱いモデルを選択することができる。
論文 参考訳(メタデータ) (2024-05-24T00:14:16Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。