論文の概要: Weak-to-Strong Generalization under Distribution Shifts
- arxiv url: http://arxiv.org/abs/2510.21332v1
- Date: Fri, 24 Oct 2025 10:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.441944
- Title: Weak-to-Strong Generalization under Distribution Shifts
- Title(参考訳): 分布シフト下における弱-ストロング一般化
- Authors: Myeongho Jeon, Jan Sobotka, Suhwan Choi, Maria Brbić,
- Abstract要約: 強弱から強弱の一般化フレームワークであるRAVENを提案する。
RAVENは強いモデルのパラメータに加えて弱いモデルの最適な組み合わせを学ぶ。
我々の結果は、RAVENがより正確な弱いモデルにより高い重みを割り当て、信頼に値する監督を自動的に識別する能力を示すことを示している。
- 参考スコア(独自算出の注目度): 6.711930932187631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As future superhuman models become increasingly complex, accurately supervising their behavior may exceed human capabilities. Recent works have demonstrated that in such scenarios, weak models can effectively supervise strong models, a phenomenon known as weak-to-strong generalization. However, we find that naive weak-to-strong generalization fails under distribution shifts, often leading to worse performance of the strong model than its weak supervisors. To address this, we propose RAVEN, a robust weak-to-strong generalization framework that dynamically learns the optimal combinations of weak models in addition to parameters of the strong model. We demonstrate the effectiveness of RAVEN on image classification, text classification, and preference alignment tasks. RAVEN outperforms alternative baselines by over 30% on out-of-distribution tasks while matching or surpassing existing methods on in-distribution tasks. Moreover, our results show that RAVEN assigns higher weights to more accurate weak models, demonstrating its ability to automatically identify trustworthy supervision.
- Abstract(参考訳): 未来の超人的モデルがますます複雑化するにつれて、その振る舞いを正確に監視することは人間の能力を超えるかもしれない。
近年の研究では、弱いモデルは強いモデルを効果的に監視できることが示されており、これは弱いから強い一般化と呼ばれる現象である。
しかし, 分散シフトの下では, 素性の弱い一般化が失敗し, 弱いスーパーバイザーよりも強いモデルの性能が低下することがしばしばある。
そこで本研究では,弱いモデルの最適組み合わせと強モデルのパラメータを動的に学習する,頑健な弱強一般化フレームワークであるRAVENを提案する。
画像分類,テキスト分類,選好アライメントタスクにおけるRAVENの有効性を示す。
RAVENは、アウト・オブ・ディストリビューションタスクにおいて30%以上の代替ベースラインを上回り、イン・ディストリビューションタスクにおける既存のメソッドをマッチングまたは超越している。
さらに, この結果から, RAVENはより正確な弱いモデルに重みを割り当て, 信頼に値する監視を自動的に識別する能力を示した。
関連論文リスト
- Contrastive Weak-to-strong Generalization [50.5986177336082]
本稿では,弱強一般化を推し進めるため,Contrastive Weak-to-Strong Generalization (ConG)を提案する。
このフレームワークは、より高品質なサンプルを生成するために、事前調整後の弱いモデル間の対照的な復号を用いる。
論文 参考訳(メタデータ) (2025-10-09T07:37:23Z) - How to Mitigate Overfitting in Weak-to-strong Generalization? [50.37526669608372]
Weak-to-strongの一般化は、弱いスーパーバイザーを通して強いモデルの能力を引き出すことを目的としている。
強いモデルは弱強一般化において顕著な過剰適合を示す。
本稿では,監視信号の品質と入力質問の品質を同時に向上する2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:32:39Z) - Relating Misfit to Gain in Weak-to-Strong Generalization Beyond the Squared Loss [4.4505368723466585]
強クラスにおける$k$強モデルの凸結合に対する弱強一般化について検討する。
同様の不適合性に基づく性能向上のキャラクタリゼーションが得られ、$k$が大きくなると消滅する追加のエラー項が現れる。
論文 参考訳(メタデータ) (2025-01-31T12:57:58Z) - Debate Helps Weak-to-Strong Generalization [68.70065254564642]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。
議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。
OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文 参考訳(メタデータ) (2025-01-21T05:36:13Z) - Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization [68.62228569439478]
弱い着想の問題が存在するかどうかを考察する。
弱いモデルと強いモデルの間の能力ギャップが増大するにつれて、偽造は増大する。
私たちの研究は、スーパーアライメントの真の信頼性にもっと注意を払う必要があることを強調します。
論文 参考訳(メタデータ) (2024-06-17T11:36:39Z) - Quantifying the Gain in Weak-to-Strong Generalization [14.453654853392619]
より弱いモデルよりも強いモデルによって達成される性能の向上は、弱いモデルによって生成されるラベル上の強モデルによって引き起こされる不適合誤差によって定量化されることを示す。
例えば、強いモデルが弱いモデルよりも改善する量を予測することができ、また、そのミスフィットエラーに基づいて、強いモデルをトレーニングするために異なる弱いモデルを選択することができる。
論文 参考訳(メタデータ) (2024-05-24T00:14:16Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。