論文の概要: Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning
- arxiv url: http://arxiv.org/abs/2602.17565v1
- Date: Thu, 19 Feb 2026 17:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.235429
- Title: Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning
- Title(参考訳): 尾根回帰における最適非拘束自己蒸留:厳格な改善、精密漸近症、ワンショットチューニング
- Authors: Hien Dang, Pratik Patil, Alessandro Rinaldo,
- Abstract要約: 自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 61.07540493350384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-distillation (SD) is the process of retraining a student on a mixture of ground-truth labels and the teacher's own predictions using the same architecture and training data. Although SD has been empirically shown to often improve generalization, its formal guarantees remain limited. We study SD for ridge regression in unconstrained setting in which the mixing weight $ξ$ may be outside the unit interval. Conditioned on the training data and without any distributional assumptions, we prove that for any squared prediction risk (including out-of-distribution), the optimally mixed student strictly improves upon the ridge teacher for every regularization level $λ> 0$ at which the teacher ridge risk $R(λ)$ is nonstationary (i.e., $R'(λ) \neq 0$). We obtain a closed-form expression for the optimal mixing weight $ξ^\star(λ)$ for any value of $λ$ and show that it obeys the sign rule: $\operatorname{sign}(ξ^\star(λ))=-\operatorname{sign}(R'(λ))$. In particular, $ξ^\star(λ)$ can be negative, which is the case in over-regularized regimes. To quantify the risk improvement due to SD, we derive exact deterministic equivalents for the optimal SD risk in the proportional asymptotics regime (where the sample and feature sizes $n$ and $p$ both diverge but their aspect ratio $p/n$ converges) under general anisotropic covariance and deterministic signals. Our asymptotic analysis extends standard second-order ridge deterministic equivalents to their fourth-order analogs using block linearization, which may be of independent interest. From a practical standpoint, we propose a consistent one-shot tuning method to estimate $ξ^\star$ without grid search, sample splitting, or refitting. Experiments on real-world datasets and pretrained neural network features support our theory and the one-shot tuning method.
- Abstract(参考訳): 自己蒸留(セルフ蒸留、英: Self-distillation、SD)とは、教師が同じアーキテクチャとトレーニングデータを用いて、教師自身の予測と地味なラベルを混合して学生を訓練する過程である。
SDはしばしば一般化を改善することが実証的に示されているが、公式な保証は限られている。
混合重量=$$が単位間隔外であるような非拘束条件下での尾根回帰のSDについて検討した。
トレーニングデータに条件付き、分布的な仮定がなければ、任意の正方形予測リスク(分布外分布を含む)に対して、最適に混合された学生は、教師のリッジリスクが$R(λ)$が非定常であるようなすべての正規化レベル$λ>0$において、リッジ教師に対して厳格に改善する(すなわち、$R'(λ) \neq 0$)。
最適混合重みに対する閉形式式は、$λ$の任意の値に対して$ ^\star(λ)$であり、符号規則に従うことを示す: $\operatorname{sign}(\^\star(λ))=-\operatorname{sign}(R'(λ))$。
特に、 $ ^\star(λ)$ は負となりうるが、これは過正規化レジームの場合である。
SDによるリスク改善を定量化するために、一般的な異方性共分散および決定論的信号の下で、比例漸近系(サンプルおよび特徴サイズが$n$と$p$が分岐するが、それらのアスペクト比$p/n$収束する)における最適SDリスクの正確な決定論的等価性を導出する。
我々の漸近解析は、標準的な二階尾根決定論的同値を、ブロック線形化(英語版)を用いた四階尾根決定論的同値に拡張する。
実用の観点からは,グリッド探索やサンプル分割,再構成を伴わない,一貫したワンショットチューニング手法を提案する。
実世界のデータセットと事前学習されたニューラルネットワークに関する実験は、我々の理論とワンショットチューニング法を支持している。
関連論文リスト
- Precise Asymptotics of Bagging Regularized M-estimators [20.077783679095443]
我々は,アンサンブル推定器の正方形予測リスクを,正規化M値推定器のサブタグ化(サブサンプルブートストラップ集約)により特徴付ける。
我々の分析の鍵は、重なり合うサブサンプル上の推定値と残差との相関関係の結合挙動に関する新しい結果である。
サブサンプルサイズ,アンサンブルサイズ,正規化の併用最適化は,全データに対してのみ,正規化器の最適化を著しく上回る。
論文 参考訳(メタデータ) (2024-09-23T17:48:28Z) - Generalized equivalences between subsampling and ridge regularization [3.1346887720803505]
アンサンブルリッジ推定器におけるサブサンプリングとリッジ正則化の間の構造的およびリスク等価性を証明した。
我々の同値性の間接的な意味は、最適に調整されたリッジ回帰は、データアスペクト比において単調な予測リスクを示すことである。
論文 参考訳(メタデータ) (2023-05-29T14:05:51Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Optimal and instance-dependent guarantees for Markovian linear stochastic approximation [47.912511426974376]
標準スキームの最後の繰り返しの2乗誤差に対して、$t_mathrmmix tfracdn$の非漸近境界を示す。
マルコフ雑音による政策評価について,これらの結果のまとめを導出する。
論文 参考訳(メタデータ) (2021-12-23T18:47:50Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。