論文の概要: Residual-as-Teacher: Mitigating Bias Propagation in Student--Teacher Estimation
- arxiv url: http://arxiv.org/abs/2603.25466v1
- Date: Thu, 26 Mar 2026 14:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.32287
- Title: Residual-as-Teacher: Mitigating Bias Propagation in Student--Teacher Estimation
- Title(参考訳): 教師としての残留性:学生におけるバイアス伝播の軽減--教師の推定
- Authors: Kakei Yamamoto, Martin J. Wainwright,
- Abstract要約: そこでは,教師の事前学習による予測を用いて,学生モデルの指導を行う学習者環境における統計的推定について検討する。
標準的アプローチは、教師の出力と直接一致するように学生に訓練することであり、これは学生ソフトマッチング(SM)と呼ばれる。
本稿では,教師が教師の予測の残差を推定する手法として,Ress-as-Teacher (RaT) を提案する。
- 参考スコア(独自算出の注目度): 14.526961596109361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study statistical estimation in a student--teacher setting, where predictions from a pre-trained teacher are used to guide a student model. A standard approach is to train the student to directly match the teacher's outputs, which we refer to as student soft matching (SM). This approach directly propagates any systematic bias or mis-specification present in the teacher, thereby degrading the student's predictions. We propose and analyze an alternative scheme, known as residual-as-teacher (RaT), in which the teacher is used to estimate residuals in the student's predictions. Our analysis shows how the student can thereby emulate a proximal gradient scheme for solving an oracle optimization problem, and this provably reduces the effect of teacher bias. For general student--teacher pairs, we establish non-asymptotic excess risk bounds for any RaT fixed point, along with convergence guarantees for the student-teacher iterative scheme. For kernel-based student--teacher pairs, we prove a sharp separation: the RaT method achieves the minimax-optimal rate, while the SM method incurs constant prediction error for any sample size. Experiments on both synthetic data and ImageNette classification under covariate shift corroborate our theoretical findings.
- Abstract(参考訳): そこでは,教師の事前学習による予測を用いて,学生モデルの指導を行う学習者環境における統計的推定について検討する。
標準的アプローチは、教師の出力と直接一致するように学生に訓練することであり、これは学生ソフトマッチング(SM)と呼ばれる。
このアプローチは、教師が持つ体系的偏見や誤特定を直接伝達し、生徒の予測を劣化させる。
本稿では,教師が教師の予測の残差を推定する手法として,Ress-as-Teacher (RaT) を提案する。
本分析は,学生がオラクル最適化問題を解くための近似勾配スキームをエミュレートする方法を示し,教師のバイアスの効果を確実に低減するものである。
一般の学生-教師ペアに対しては、RaT固定点に対する漸近的でない過剰リスク境界と、学生-教師反復スキームの収束保証を確立する。
カーネルベースの学生-教師ペアの場合、RaT法は最小最大最適率を達成する一方、SM法は任意のサンプルサイズに対して一定の予測誤差を発生させる。
共変量シフトによる合成データと画像Nette分類の両方の実験は、我々の理論的知見を裏付けるものである。
関連論文リスト
- Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression [27.0471650610245]
スケーリング法則に影響を及ぼし,その後にテストエラーが発生するという意味で,潜在的な改善は極めて重要であることを示す。
厳密には、生徒は教師のスケーリング法則によらず、最小限の最適率を達成することができる。
論文 参考訳(メタデータ) (2026-03-05T21:32:59Z) - Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment [82.00769536768509]
Rank-Surprisal Ratioは、推論軌道の適合性を評価するためにアライメントとインフォメーションの両方をキャプチャする単純な計量である。
軌道選択と教師選択の両方において,その実用性を実証する。
論文 参考訳(メタデータ) (2026-01-20T18:58:10Z) - Long-Chain Reasoning Distillation via Adaptive Prefix Alignment [57.130176131042965]
本稿では,教師のCoTを適応的接頭辞アライメントによる蒸留に活用するフレームワークを提案する。
P-ALIGNは、残りの接尾辞が簡潔かどうかを判断することで、教師生成の推論軌道を適応的に切り離す。
複数の数学的推論ベンチマークの実験では、P-ALIGNはすべてのベースラインを3%以上上回っている。
論文 参考訳(メタデータ) (2026-01-15T04:40:45Z) - On the Emergence of Weak-to-Strong Generalization: A Bias-Variance Perspective [25.571896278624024]
W2SG(Weak-to-strong generalization)とは、弱い教師によってラベル付けされたデータセットに基づいて訓練された強力な学生モデルが、ターゲットタスクにおいて教師より優れる現象である。
近年の研究では、学生モデルと教師モデルの間の予測ミスフィットによるパフォーマンス向上が評価されている。
W2SGは、生徒モデルが個々の教師を模倣するのではなく、その後部の平均教師に近似した場合に出現する可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-30T07:52:43Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Toward Student-Oriented Teacher Network Training For Knowledge Distillation [40.55715466657349]
本稿では,リプシッツ正則化と整合性正則化を取り入れた教員養成手法SoTeacherを提案する。
様々な知識蒸留アルゴリズムと教師と学生のペアを用いたベンチマークデータセットの実験は、SoTeacherが生徒の精度を一貫して改善できることを確認した。
論文 参考訳(メタデータ) (2022-06-14T07:51:25Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。