論文の概要: Weak-to-Strong Generalization Even in Random Feature Networks, Provably
- arxiv url: http://arxiv.org/abs/2503.02877v1
- Date: Tue, 04 Mar 2025 18:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:37.224326
- Title: Weak-to-Strong Generalization Even in Random Feature Networks, Provably
- Title(参考訳): ランダムな特徴ネットワークであっても、弱々しい一般化は可能か?
- Authors: Marko Medvedev, Kaifeng Lyu, Dingli Yu, Sanjeev Arora, Zhiyuan Li, Nathan Srebro,
- Abstract要約: GPT-4のような強力な学習者を必要としないことを示す。
我々は、弱い教師によってラベル付けされたデータにのみ訓練されたにもかかわらず、学生がいかに教師より優れているかを実証し、証明し、理解する。
- 参考スコア(独自算出の注目度): 54.68030827799126
- License:
- Abstract: Weak-to-Strong Generalization (Burns et al., 2024) is the phenomenon whereby a strong student, say GPT-4, learns a task from a weak teacher, say GPT-2, and ends up significantly outperforming the teacher. We show that this phenomenon does not require a strong learner like GPT-4. We consider student and teacher that are random feature models, described by two-layer networks with a random and fixed bottom layer and a trained top layer. A "weak" teacher, with a small number of units (i.e. random features), is trained on the population, and a "strong" student, with a much larger number of units (i.e. random features), is trained only on labels generated by the weak teacher. We demonstrate, prove, and understand how the student can outperform the teacher, even though trained only on data labeled by the teacher. We also explain how such weak-to-strong generalization is enabled by early stopping. Importantly, we also show the quantitative limits of weak-to-strong generalization in this model.
- Abstract(参考訳): 弱々しい一般化(英語: Weak-to-Strong Generalization, Barns et al , 2024)とは、強力な学生であるGPT-4が、弱い教師であるGPT-2からタスクを学習し、最終的に教師を著しく上回る現象である。
GPT-4のような強力な学習者を必要としないことを示す。
ランダムで固定された底層とトレーニングされたトップ層を持つ2層ネットワークによって記述されるランダムな特徴モデルである学生と教師について考察する。
弱い」教師は少数の単位(すなわちランダムな特徴)で、人口で訓練され、「強い」学生ははるかに多くの単位(すなわちランダムな特徴)で訓練され、弱い教師が生成したラベルでのみ訓練される。
我々は,教師がラベル付けしたデータのみを学習しても,生徒が教師より優れていることを実証し,証明し,理解する。
また、このような弱強一般化が早期停止によって可能となるかについても説明する。
重要なことは、このモデルにおける弱強一般化の量的限界を示すことである。
関連論文リスト
- Provable Weak-to-Strong Generalization via Benign Overfitting [3.4652800888823294]
弱い教師が不完全な擬似ラベルを持つ強い生徒を監督する逆の状況を考える。
理論的には、二進分類と多進分類の弱強一般化を理論的に検討する。
我々の手法は最終的には弱いクラスから強いクラスに拡張されるべきである。
論文 参考訳(メタデータ) (2024-10-06T22:10:50Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - Switching Temporary Teachers for Semi-Supervised Semantic Segmentation [45.20519672287495]
半教師付きセマンティックセグメンテーションで一般的な教師/学生のフレームワークは、主に指数的移動平均(EMA)を用いて、学生の量に基づいて教師の重みを更新する。
本稿では,学生のカップリング問題を軽減するために,2つの臨時教員を兼ねた,シンプルで効果的な方法であるデュアル教師を紹介する。
論文 参考訳(メタデータ) (2023-10-28T08:49:16Z) - Self-Training with Differentiable Teacher [80.62757989797095]
自己学習は、様々な半教師付きおよび弱教師付き学習タスクで大きな成功を収める。
この手法は、教師が擬似ラベルを生成し、生徒が予測を行う教師学生の枠組みとして解釈できる。
そこで我々は,教師学生をStackelbergゲームとして扱う,差別化可能な自己学習法を提案する。
論文 参考訳(メタデータ) (2021-09-15T02:06:13Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Distilling Double Descent [65.85258126760502]
蒸留とは、別の「教師」モデルでラベル付けされた例に基づいた「学生」モデルを訓練する技法である。
教師モデルが非常にパラメータ化されすぎている場合であっても、非常に大きな保持されていないラベル付きデータセットを使用することで、より"伝統的な"アプローチを上回るモデルが生まれます。
論文 参考訳(メタデータ) (2021-02-13T02:26:48Z) - Subclass Distillation [94.18870689772544]
本研究では,教師の一般化能力のほとんどを学生に転移させることが可能であることを示す。
既知の、自然なサブクラスが存在するデータセットに対して、教師が同様のサブクラスを学ぶことを示す。
サブクラスが不明なクリックスルーデータセットの場合、サブクラス蒸留により、学生はより速く、より良く学習できることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。