Fugu-MT 論文翻訳(概要): Self-Distillation is Optimal Among Spectral Shrinkage Estimators in Spiked Covariance Models

論文の概要: Self-Distillation is Optimal Among Spectral Shrinkage Estimators in Spiked Covariance Models

arxiv url: http://arxiv.org/abs/2605.17778v1
Date: Mon, 18 May 2026 02:56:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:48.611816
Title: Self-Distillation is Optimal Among Spectral Shrinkage Estimators in Spiked Covariance Models
Title（参考訳）: スパイク共分散モデルにおけるスペクトル収縮推定器の自己蒸留は最適である
Authors: Radu Lecoiu, Debarghya Mukherjee, Pragya Sur,
Abstract要約: 自己蒸留は、現代の機械学習システムにおけるモデル性能を改善するための有望な技術として登場した。我々は、複数のデータセンターがスペクトル収縮推定器を共有し、共通のサーバがそれらを集約して最適な性能を実現するためのフェデレーションアプローチについて検討する。この場合、最良のローカルルールは、データを単一のサーバに集中的にホストする最適なルールとは異なるが、再び自己蒸留の形式を取る。
参考スコア（独自算出の注目度）: 6.244816393907942
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-distillation has emerged as a promising technique for improving model performance in modern machine learning systems. We develop the statistical foundations of self-distillation in spiked covariance models, by introducing and analyzing a broad class of estimators, namely spectral shrinkage estimators. We establish that for spiked covariance matrices with $s$ spikes, $s$-step self-distillation achieves optimal performance among spectral shrinkage estimators, outperforming well-known estimators in statistics and machine learning. Moreover, we show that $s$ steps are necessary for optimality: any $(s-k)$-step distilled estimator is strictly suboptimal for $1 \leq k \leq s$. For the special subclass of isotropic covariances, we show that optimally tuned Ridge regression performs best among spectral shrinkage estimators. We also study a federated approach where multiple data centers share spectral shrinkage estimators and a common server seeks to aggregate them to achieve optimal performance. In this case, we find that the best local rule again takes the form of self-distillation, though it differs from the optimal rule when data are hosted centrally on a single server. Together, our results elucidate why self-distillation improves predictive performance and provide a broader statistical framework connecting it with classical shrinkage-based methods.
Abstract（参考訳）: 自己蒸留は、現代の機械学習システムにおけるモデル性能を改善するための有望な技術として登場した。本研究では, スペクトル収縮率推定器を多種に導入し, 解析することにより, スパイク共分散モデルにおける自己蒸留の統計的基礎を構築した。我々は、スパイク付き共分散行列が$s$スパイクの場合、$s$の自己蒸留はスペクトル収縮推定器の最適性能を達成し、統計学や機械学習においてよく知られた推定器よりも優れていることを証明した。さらに、任意の$(s-k)$-step蒸留推定器は、1 \leq k \leq s$に対して厳密に最適である。等方性共変の特殊部分クラスについて、最適に調整されたリッジ回帰はスペクトル収縮推定器の中で最もよく機能することを示す。また、複数のデータセンターがスペクトル収縮推定器を共有し、共通のサーバがそれらを集約して最適な性能を実現しようとするフェデレートアプローチについても検討する。この場合、最適なローカルルールは、データが単一のサーバに集中的にホストされているときの最適ルールとは異なるが、再び自己蒸留の形式をとる。その結果, 自己蒸留が予測性能を向上させた理由を解明し, 従来の収縮法と結合するより広範な統計的枠組みを提供することができた。

関連論文リスト

Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control [82.30868101940068]
本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
論文参考訳（メタデータ） (2026-02-17T15:31:32Z)
In-Run Data Shapley for Adam Optimizer [13.904612598915165]
本稿では,Adam-Aware In-Run Data Shapleyを提案する。本手法は, 標準トレーニングの95%を保ちながら, グラウンドピアソン限界貢献に対するほぼ完全な忠実度を実現する。
論文参考訳（メタデータ） (2026-01-30T21:31:40Z)
Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [70.38810219913593]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。 GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-16T02:24:21Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。 $SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-22T16:04:03Z)
Distributionally Robust Optimization as a Scalable Framework to Characterize Extreme Value Distributions [22.765095010254118]
本研究の目的は分散ロバストな最適化 (DRO) 推定器の開発であり、特に多次元極値理論 (EVT) の統計量についてである。点過程の空間における半パラメトリックな最大安定制約によって予測されるDRO推定器について検討した。両手法は, 合成データを用いて検証し, 所定の特性を回復し, 提案手法の有効性を検証する。
論文参考訳（メタデータ） (2024-07-31T19:45:27Z)
Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文参考訳（メタデータ） (2023-07-26T08:25:46Z)
Functional Ensemble Distillation [18.34081591772928]
本研究では,効率的なモデルを用いて,アンサンブルの予測を最もよく蒸留する方法を検討する。混合増量方式による簡易増量方式による蒸留モデルの学習により, 性能が著しく向上することが判明した。
論文参考訳（メタデータ） (2022-06-05T14:07:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。