論文の概要: What Makes a Strong Model? A Unified Spectral Analysis of Knowledge Transfer over High-dimensional Linear Regression
- arxiv url: http://arxiv.org/abs/2606.01292v1
- Date: Sun, 31 May 2026 15:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.502356
- Title: What Makes a Strong Model? A Unified Spectral Analysis of Knowledge Transfer over High-dimensional Linear Regression
- Title(参考訳): 強モデルとは何か?-高次元線形回帰による知識伝達の統一スペクトル解析
- Authors: Wendao Wu, Fangqing Zhang, Haihan Zhang, Cong Fang,
- Abstract要約: Teacher-Student Knowledge Transfer (KT)は、知識蒸留(KD)による古典的なモデル圧縮から、Wak-to-Strong(W2S)一般化の創発的な現象まで、現代の機械学習においてユビキタスである。
我々は、高次元線形回帰におけるSGDダイナミクスの統一スペクトル解析を確立し、KTの効率を異なるように見える状態にわたって解明する。
この枠組みはこれらの現象を統一し、移動の有効性は暗黙の正則化とスペクトル上の異種スペクトル学習速度との相互作用によって制御されることを示した。
- 参考スコア(独自算出の注目度): 2.9329312433020718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Teacher-Student Knowledge Transfer (KT) is ubiquitous in modern machine learning, ranging from classical model compression via Knowledge Distillation (KD) to the emergent phenomenon of Weak-to-Strong (W2S) generalization. While existing studies offer isolated insights, a unified theoretical framework explaining the efficacy of KT across these disparate regimes remains lacking. In this work, we establish a unified spectral analysis of SGD dynamics in high-dimensional linear regression, elucidating the efficiency of KT across seemingly disparate regimes. We characterize KT efficiency through two distinct mechanisms: \emph{Spectral Horizon Expansion} in KD, which enables the capture of statistically inaccessible high-frequency signals, and \emph{Spectral Denoising} in W2S, where the student acts as a filter for optimization noise. Our framework unifies these phenomena, revealing that the efficacy of transfer is governed by the interplay between implicit regularization and heterogeneous spectral learning speeds over the spectrum.
- Abstract(参考訳): Teacher-Student Knowledge Transfer (KT)は、知識蒸留(KD)による古典的なモデル圧縮から、Wak-to-Strong(W2S)一般化の創発的な現象まで、現代の機械学習においてユビキタスである。
既存の研究は独立した洞察を提供するが、これらの異なる体制におけるKTの有効性を説明する統一理論の枠組みはいまだに欠如している。
本研究では,高次元線形回帰におけるSGD力学の統一スペクトル解析を行い,KTの効率性について検討する。
我々は,KD における \emph{Spectral Horizon Expansion} と W2S における \emph{Spectral Denoising} の2つの異なるメカニズムにより,KT の効率を特徴づける。
この枠組みはこれらの現象を統一し、移動の有効性は暗黙の正則化とスペクトル上の異種スペクトル学習速度との相互作用によって制御されることを示した。
関連論文リスト
- On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD [93.70725920710208]
ラベル雑音による勾配降下の学習力学について検討する。
遅延からリッチな体制への移行を駆動する上で,ラベルノイズが重要な役割を担っていることを強調する。
これらの知見をSAM(Sharpness-Aware Minimization)に拡張し、ラベルノイズSGDを規定する原理がより広範な最適化アルゴリズムにも適用可能であることを示す。
論文 参考訳(メタデータ) (2026-03-11T04:26:54Z) - Dual-granularity Sinkhorn Distillation for Enhanced Learning from Long-tailed Noisy Data [67.25796812343454]
ディープラーニングのための実世界のデータセットは、クラス不均衡とラベルノイズの共起的な課題にしばしば悩まされる。
蒸留と相補的な知見の統合により二重強靭性を高める新しいフレームワークであるD-SINKを提案する。
ベンチマークデータセットの実験では、D-SINKはロバスト性を大幅に向上し、長い尾のノイズデータから学習する際の強い経験的性能を達成することが示された。
論文 参考訳(メタデータ) (2025-10-09T13:05:27Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Provable Low-Frequency Bias of In-Context Learning of Representations [19.066378730056275]
In-context Learning (ICL) は、大きな言語モデル(LLM)がパラメータを更新せずに入力シーケンスから新しい振る舞いを取得することを可能にする。
近年の研究では、ICLはプロンプトのデータ生成過程(DGP)の構造を内部化することにより、事前学習の段階で学んだ本来の意味を超えることができることが示されている。
本稿では、二重収束の統一的な枠組みを導入することにより、このような現象を初めて厳密に説明する。
この二重収束過程は、スムーズな(低周波)表現に対する暗黙のバイアスをもたらし、解析的に証明し、経験的に検証する。
論文 参考訳(メタデータ) (2025-07-17T21:19:32Z) - Many-body spectral transitions through the lens of variable-range SYK2 model [13.39567116041819]
距離依存的相互作用を持つ2次SYKモデルについて検討する。
スペクトル形成因子 (SFF) を解析および数値的に研究することにより, 多体系における単一粒子の遷移がどのように現れるかを明らかにする。
この結果は、単一粒子臨界と多体ダイナミクスの相互作用を強調し、量子カオス-局在化遷移とスペクトル統計におけるその反射に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-12-18T19:17:20Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Unveiling photon-photon coupling induced transparency and absorption [0.0]
本研究では,電磁誘導透過 (EIT) と吸収 (EIA) の理論的基礎について述べる。
連系系におけるコヒーレント相互作用と散逸相互作用の相互作用が、それぞれCITおよびCIAに対応するレベル反発とアトラクションの出現をもたらすかを解明する、透過スペクトルと分散に関する分析式を用いた簡潔な表現学的記述を提供する。
論文 参考訳(メタデータ) (2024-06-28T09:18:30Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。