論文の概要: From Linear to Nonlinear: Provable Weak-to-Strong Generalization through Feature Learning
- arxiv url: http://arxiv.org/abs/2510.24812v1
- Date: Tue, 28 Oct 2025 07:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.590341
- Title: From Linear to Nonlinear: Provable Weak-to-Strong Generalization through Feature Learning
- Title(参考訳): 線形から非線形へ:特徴学習による確率弱-ストロング一般化
- Authors: Junsoo Oh, Jerry Song, Chulhee Yun,
- Abstract要約: 線形CNN(弱)から2層ReLU CNN(強)への弱強一般化の形式解析を提供する。
分析では、データセットの信号対雑音特性に基づいて、データスカースとデータバウンダントという2つのレシエーションを特定した。
- 参考スコア(独自算出の注目度): 27.3606707777401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weak-to-strong generalization refers to the phenomenon where a stronger model trained under supervision from a weaker one can outperform its teacher. While prior studies aim to explain this effect, most theoretical insights are limited to abstract frameworks or linear/random feature models. In this paper, we provide a formal analysis of weak-to-strong generalization from a linear CNN (weak) to a two-layer ReLU CNN (strong). We consider structured data composed of label-dependent signals of varying difficulty and label-independent noise, and analyze gradient descent dynamics when the strong model is trained on data labeled by the pretrained weak model. Our analysis identifies two regimes -- data-scarce and data-abundant -- based on the signal-to-noise characteristics of the dataset, and reveals distinct mechanisms of weak-to-strong generalization. In the data-scarce regime, generalization occurs via benign overfitting or fails via harmful overfitting, depending on the amount of data, and we characterize the transition boundary. In the data-abundant regime, generalization emerges in the early phase through label correction, but we observe that overtraining can subsequently degrade performance.
- Abstract(参考訳): 弱々しい一般化とは、より弱い者から監督の下で訓練された強いモデルが教師より優れている現象である。
先行研究はこの効果を説明することを目的としているが、ほとんどの理論的洞察は抽象的なフレームワークや線形/ランダムな特徴モデルに限られている。
本稿では,線形CNN(弱)から2層ReLU CNN(強)への弱強一般化の形式解析を行う。
本研究では, ラベル依存信号とラベル非依存雑音からなる構造化データについて検討し, 事前学習した弱いモデルによってラベル付けされたデータに対して, 強みモデルがトレーニングされたときの勾配勾配勾配のダイナミクスを解析する。
本分析では,データセットの信号対雑音特性に基づいて,データスカースとデータバウンダントという2つのレシエーションを同定し,弱い対強一般化のメカニズムを明らかにする。
データ・スカース体制では、データの量に応じて、良性過剰適合または有害過剰適合によって一般化が行われ、遷移境界を特徴づける。
データバウンダント方式では,ラベル修正によって初期段階に一般化が出現するが,オーバートレーニングがその後の性能低下を観測する。
関連論文リスト
- A Large-scale Benchmark on Geological Fault Delineation Models: Domain Shift, Training Dynamics, Generalizability, Evaluation and Inferential Behavior [11.859145373647474]
本研究は,地震解析における領域シフト戦略のガイドラインを提供するために設計された,最初の大規模ベンチマーク研究である。
私たちのベンチマークでは、モデルアーキテクチャ、データセット、トレーニング戦略を3つのデータセットで200以上組み合わせています。
我々の分析は、ソースとターゲットのデータセットが結合していない場合、一般的な微調整のプラクティスが破滅的な忘れを招きかねないことを示している。
論文 参考訳(メタデータ) (2025-05-13T13:56:43Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Restoring balance: principled under/oversampling of data for optimal classification [0.0]
実世界のデータのクラス不均衡は、機械学習タスクに共通のボトルネックをもたらす。
データのアンダーやオーバーサンプリングといった緩和戦略は、定期的に提案され、実証的にテストされる。
我々は、クラス不均衡、データの第1、第2モーメント、考慮されたパフォーマンスの指標に依存するアンダー/オーバーサンプリング戦略の効果を鋭く予測する。
論文 参考訳(メタデータ) (2024-05-15T17:45:34Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained by Gradient Descent for Noisy Linear Data [39.53312099194621]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。