論文の概要: Discrepancies are Virtue: Weak-to-Strong Generalization through Lens of Intrinsic Dimension
- arxiv url: http://arxiv.org/abs/2502.05075v1
- Date: Fri, 07 Feb 2025 16:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:31.487222
- Title: Discrepancies are Virtue: Weak-to-Strong Generalization through Lens of Intrinsic Dimension
- Title(参考訳): 内因性次元のレンズによる弱々しい一般化
- Authors: Yijun Dong, Yicheng Li, Yunai Li, Jason D. Lee, Qi Lei,
- Abstract要約: W2S(Wak-to-strong)一般化(W2S)とは、弱い教師が生成した擬似ラベルに基づいて強力な学生モデルを訓練するファインタニング(FT)の一種である。
我々は、分散還元の観点から、リッジレス回帰設定におけるW2Sを解析する。
- 参考スコア(独自算出の注目度): 48.431551146556714
- License:
- Abstract: Weak-to-strong (W2S) generalization is a type of finetuning (FT) where a strong (large) student model is trained on pseudo-labels generated by a weak teacher. Surprisingly, W2S FT often outperforms the weak teacher. We seek to understand this phenomenon through the observation that FT often occurs in intrinsically low-dimensional spaces. Leveraging the low intrinsic dimensionality of FT, we analyze W2S in the ridgeless regression setting from a variance reduction perspective. For a strong student - weak teacher pair with sufficiently expressive low-dimensional feature subspaces $\mathcal{V}_s, \mathcal{V}_w$, we provide an exact characterization of the variance that dominates the generalization error of W2S. This unveils a virtue of discrepancy between the strong and weak models in W2S: the variance of the weak teacher is inherited by the strong student in $\mathcal{V}_s \cap \mathcal{V}_w$, while reduced by a factor of $\dim(\mathcal{V}_s)/N$ in the subspace of discrepancy $\mathcal{V}_w \setminus \mathcal{V}_s$ with $N$ pseudo-labels for W2S. Further, our analysis casts light on the sample complexities and the scaling of performance gap recovery in W2S. The analysis is supported with experiments on both synthetic regression problems and real vision tasks.
- Abstract(参考訳): W2S(Wak-to-strong generalization)は、弱い教師が生成する擬似ラベルに基づいて、強い(大きい)学生モデルを訓練するファインタニング(FT)の一種である。
驚くべきことに、W2S FTは弱い教師よりも優れています。
我々は、FTが内在的に低次元空間でしばしば発生するという観察を通して、この現象を理解することを模索する。
FTの低内在次元を応用し、分散還元の観点からリッジレス回帰設定におけるW2Sを解析する。
十分に表現力のある低次元特徴部分空間を持つ弱教師対を$\mathcal{V}_s, \mathcal{V}_w$ とすると、W2Sの一般化誤差を支配する分散の正確な特徴づけを与える。
このことは、W2Sの強いモデルと弱いモデルの相違を露呈する: 弱教師の分散は、強い学生によって$\mathcal{V}_s \cap \mathcal{V}_w$で継承されるが、離散性のサブスペースの$\dim(\mathcal{V}_s)/N$では$\mathcal{V}_w \setminus \mathcal{V}_s$と$N$の擬ラベルで還元される。
さらに,本分析は,W2Sにおける試料の複雑さと性能ギャップ回復のスケーリングに光を当てる。
この分析は、合成回帰問題と実視タスクの両方の実験で支持されている。
関連論文リスト
- Wasserstein Distributionally Robust Multiclass Support Vector Machine [1.8570591025615457]
データの特徴が $mathbfx$ であり,そのラベルが $mathbfy$ であるような設定におけるマルチクラス分類の問題について検討する。
我々は、分散ロバストな最適化を用いて、クラマー・シンガー(CS)損失を特徴とするマルチクラスサポートベクターマシン(SVM)のロバストバージョンを開発する。
我々の数値実験は、トレーニングデータが高度に不均衡な環境で、我々のモデルが最先端のOVAモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-09-12T21:40:04Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - On Learning Latent Models with Multi-Instance Weak Supervision [57.18649648182171]
本稿では,複数の入力インスタンスに関連付けられた遷移関数$sigma$ラベルによって,教師信号が生成される弱い教師付き学習シナリオについて考察する。
我々の問題は、潜在的な構造学習やニューロシンボリックな統合など、さまざまな分野で満たされている。
論文 参考訳(メタデータ) (2023-06-23T22:05:08Z) - How many dimensions are required to find an adversarial example? [0.0]
敵の脆弱性が$dim(V)$に依存するかを検討する。
特に、$ellp$ノルム制約による標準PGD攻撃の対角的成功は、$epsilonの単調に増加する関数のように振る舞うことを示す。
論文 参考訳(メタデータ) (2023-03-24T17:36:15Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - Universality class of Ising critical states with long-range losses [0.0]
空間分解散逸はイジング普遍性クラスにおいて$d$次元スピンシステムに作用することを示す。
我々は、リンドブラディアンのスペクトルが小さなモータで閉じたとき、パワー・ローがスピン損失を減衰させることを$propto qalpha$とみなす。
論文 参考訳(メタデータ) (2021-08-27T17:59:51Z) - Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文 参考訳(メタデータ) (2021-07-21T22:05:48Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z) - Optimization and Generalization of Shallow Neural Networks with
Quadratic Activation Functions [11.70706646606773]
本研究では,一層ニューラルネットワークの最適化と一般化特性について検討する。
本研究では,教師が小幅の隠蔽層を持つ学生と同じ構造を持つ教師学生シナリオについて考察する。
同じ条件下では、経験的損失の勾配降下ダイナミクスが収束し、小さな一般化誤差をもたらすことが示される。
論文 参考訳(メタデータ) (2020-06-27T22:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。