Fugu-MT 論文翻訳(概要): On the Emergence of Weak-to-Strong Generalization: A Bias-Variance Perspective

論文の概要: On the Emergence of Weak-to-Strong Generalization: A Bias-Variance Perspective

arxiv url: http://arxiv.org/abs/2505.24313v1
Date: Fri, 30 May 2025 07:52:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.83779
Title: On the Emergence of Weak-to-Strong Generalization: A Bias-Variance Perspective
Title（参考訳）: 弱-ストロング一般化の創発について:バイアス-ばらつきの観点から
Authors: Gengze Xu, Wei Yao, Ziqiao Wang, Yong Liu,
Abstract要約: W2SG(Weak-to-strong generalization)とは、弱い教師によってラベル付けされたデータセットに基づいて訓練された強力な学生モデルが、ターゲットタスクにおいて教師より優れる現象である。近年の研究では、学生モデルと教師モデルの間の予測ミスフィットによるパフォーマンス向上が評価されている。 W2SGは、生徒モデルが個々の教師を模倣するのではなく、その後部の平均教師に近似した場合に出現する可能性が示唆された。
参考スコア（独自算出の注目度）: 14.65315912348303
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weak-to-strong generalization (W2SG) refers to the phenomenon where a strong student model, trained on a dataset labeled by a weak teacher, ultimately outperforms the teacher on the target task. Recent studies attribute this performance gain to the prediction misfit between the student and teacher models. In this work, we theoretically investigate the emergence of W2SG through a generalized bias-variance decomposition of Bregman divergence. Specifically, we show that the expected population risk gap between the student and teacher is quantified by the expected misfit between the two models. While this aligns with previous results, our analysis removes several restrictive assumptions, most notably, the convexity of the student's hypothesis class, required in earlier works. Moreover, we show that W2SG is more likely to emerge when the student model approximates its posterior mean teacher, rather than mimicking an individual teacher. Using a concrete example, we demonstrate that if the student model has significantly larger capacity than the teacher, it can indeed converge to this posterior mean. Our analysis also suggests that avoiding overfitting to the teacher's supervision and reducing the entropy of student's prediction further facilitate W2SG. In addition, we show that the reverse cross-entropy loss, unlike the standard forward cross-entropy, is less sensitive to the predictive uncertainty of the teacher. Finally, we empirically verify our theoretical insights and demonstrate that incorporating the reverse cross-entropy loss consistently improves student performance.
Abstract（参考訳）: W2SG(Weak-to-strong generalization)とは、弱い教師によってラベル付けされたデータセットに基づいて訓練された強力な学生モデルが、最終的にターゲットタスクにおいて教師より優れている現象である。近年の研究では、学生モデルと教師モデルの間の予測ミスフィットによるパフォーマンス向上が評価されている。本研究では,ブレグマン分散の一般化バイアス分散分解によるW2SGの出現を理論的に検討する。具体的には,教師と生徒の間で期待される人口リスクギャップが,両モデル間に期待される不適合度によって定量化されていることを示す。これは以前の結果と一致するが、我々の分析はいくつかの制限的な仮定、特に初期の研究で必要とされる学生の仮説クラスの凸性を取り除いている。さらに,W2SGは,学生モデルが個々の教師を模倣するよりも,後進的な教師に近似した場合に出現する可能性が示唆された。具体例を用いて、生徒モデルが教師よりもはるかに大きな能力を持つ場合、実際にこの後部平均に収束できることを実証する。また,教師の指導に過度に適合することを避け,生徒の予測のエントロピーを下げることで,W2SGをさらに促進することが示唆された。また, 逆クロスエントロピー損失は, 標準的なフォワードクロスエントロピーとは異なり, 教師の予測的不確実性に敏感でないことを示す。最後に、理論的知見を実証的に検証し、逆のクロスエントロピー損失を取り入れることで、学生のパフォーマンスが一貫して向上することを示す。

関連論文リスト

On the Mechanisms of Weak-to-Strong Generalization: A Theoretical Perspective [28.005935031887038]
不完全なラベルで訓練された学生モデルが、その教師を超えている弱々しい一般化が広く観察されている。本稿では,単純なモデルの理論解析を通じて,この現象を駆動する3つのコア機構を明らかにする。
論文参考訳（メタデータ） (2025-05-23T20:09:09Z)
Alice: Proactive Learning with Teacher's Demonstrations for Weak-to-Strong Generalization [69.96794098855938]
Weak-to-strong Generalization (W2SG)は、ますます有能な言語モデル(LLM)を監督するための有望なフレームワークを提供する。伝統的なW2SG手法は受動的学習に依存しており、弱い教師は強い生徒を訓練するためにノイズの多いデモを提供する。教師と生徒の相補的な知識を活用して学習プロセスを強化するフレームワークであるAliceを紹介した。
論文参考訳（メタデータ） (2025-04-09T22:33:06Z)
Discrepancies are Virtue: Weak-to-Strong Generalization through Lens of Intrinsic Dimension [48.431551146556714]
W2S(Wak-to-strong)一般化(W2S)とは、弱い教師が生成した擬似ラベルに基づいて強力な学生モデルを訓練するファインタニング(FT)の一種である。我々は、分散還元の観点から、リッジレス回帰設定におけるW2Sを解析する。
論文参考訳（メタデータ） (2025-02-07T16:46:43Z)
Theoretical Analysis of Weak-to-Strong Generalization [23.235671743867492]
既存の弱監督理論は擬似ラベル補正とカバレッジ拡張を考慮しないことを示す。我々の境界線は、強モデルが追加の誤りを起こさずに弱教師の誤りに適合できない場合に、弱強一般化が起こるという直感を捉えている。
論文参考訳（メタデータ） (2024-05-25T03:48:12Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
A U-turn on Double Descent: Rethinking Parameter Counting in Statistical Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。これは二重降下と統計的直観の間の緊張を解消する。
論文参考訳（メタデータ） (2023-10-29T12:05:39Z)
Class-Imbalanced Graph Learning without Class Rebalancing [62.1368829847041]
クラス不均衡は実世界のノード分類タスクでよく見られ、グラフ学習モデルには大きな課題がある。本研究では、トポロジカルパラダイムからクラス不均衡バイアスの根本原因にアプローチする。我々は,クラス再バランスを伴わずにクラス不均衡バイアスを軽減するために,軽量なトポロジカル拡張フレームワークであるBATを考案した。
論文参考訳（メタデータ） (2023-08-27T19:01:29Z)
On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文参考訳（メタデータ） (2023-01-30T14:25:02Z)
Learning curves for the multi-class teacher-student perceptron [5.480546613836199]
高次元学習理論における最も古典的な結果の1つは、二項分類の一般化誤差に対する閉形式表現である。ベイズ最適推定と経験的リスク最小化(ERM)の両方が、この設定のために広範囲に分析された。しかし、対応するマルチスチューデントパーセプトロンの類似解析が欠如していた。
論文参考訳（メタデータ） (2022-03-22T23:16:36Z)
On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文参考訳（メタデータ） (2021-07-27T09:13:11Z)
Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文参考訳（メタデータ） (2021-06-03T09:34:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。