論文の概要: On the Asymptotics of Self-Supervised Pre-training: Two-Stage M-Estimation and Representation Symmetry
- arxiv url: http://arxiv.org/abs/2603.27631v1
- Date: Sun, 29 Mar 2026 11:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.049535
- Title: On the Asymptotics of Self-Supervised Pre-training: Two-Stage M-Estimation and Representation Symmetry
- Title(参考訳): 自己監督型事前訓練の漸近性について:2段階M推定と表現対称性
- Authors: Mohammad Tinati, Stephen Tu,
- Abstract要約: 自己教師型プレトレーニングは、現代の機械学習の基盤となっている。
既存の限界は、現在のレートがどれくらいシャープかという疑問を解き放つ。
2段階M推定による事前学習の本質的な理論を考案する。
- 参考スコア(独自算出の注目度): 8.92071749364712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-training, where large corpora of unlabeled data are used to learn representations for downstream fine-tuning, has become a cornerstone of modern machine learning. While a growing body of theoretical work has begun to analyze this paradigm, existing bounds leave open the question of how sharp the current rates are, and whether they accurately capture the complex interaction between pre-training and fine-tuning. In this paper, we address this gap by developing an asymptotic theory of pre-training via two-stage M-estimation. A key challenge is that the pre-training estimator is often identifiable only up to a group symmetry, a feature common in representation learning that requires careful treatment. We address this issue using tools from Riemannian geometry to study the intrinsic parameters of the pre-training representation, which we link with the downstream predictor through a notion of orbit-invariance, precisely characterizing the limiting distribution of the downstream test risk. We apply our main result to several case studies, including spectral pre-training, factor models, and Gaussian mixture models, and obtain substantial improvements in problem-specific factors over prior art when applicable.
- Abstract(参考訳): 下流の微調整のための表現を学習するためにラベルのない大量のコーパスを使用する自己教師付き事前学習は、現代の機械学習の基盤となっている。
理論的な研究の活発化がこのパラダイムを分析し始めたが、既存の境界線は、現在の速度がどれくらい鋭いのか、そして事前学習と微調整の間の複雑な相互作用を正確に捉えているのか、という疑問を解き放っている。
本稿では,2段階M推定による事前学習の漸近的理論を開発することにより,このギャップに対処する。
鍵となる課題は、事前学習推定器が、注意深い治療を必要とする表現学習に共通する特徴である群対称性までしか識別できないことである。
本稿では, 軌道不変性の概念を用いて, 下流予測器とリンクする事前学習表現の本質的なパラメータを, 下流テストリスクの限定分布を正確に特徴付けるために, リーマン幾何学のツールを用いてこの問題に対処する。
本研究の主な成果は, スペクトル事前学習, 因子モデル, ガウス混合モデルなどいくつかのケーススタディに適用し, 適用した場合の先行技術よりも問題特異的因子の大幅な改善が得られた。
関連論文リスト
- Unified Inference Framework for Single and Multi-Player Performative Prediction: Method and Asymptotic Optimality [15.289993502701305]
本稿では,単一エージェントと複数エージェントのパフォーマンスを橋渡しする,統一的な統計的推論フレームワークを提案する。
動的でパフォーマンスの高い環境で、信頼性の高い見積もりと意思決定のための原則化されたツールキットを提供する。
論文 参考訳(メタデータ) (2026-02-03T03:17:54Z) - Asymptotic Theory of Iterated Empirical Risk Minimization, with Applications to Active Learning [15.858234832499585]
本研究では,2つの連続ERMを同一データセット上で実行した反復的経験的リスク(ERM)のクラスについて検討する。
ガウス混合データに対して幅広い凸損失を訓練した線形モデルに対して、テスト誤差の鋭い特徴付けを導出する。
ラベル付け予算の段階的配分に関する基本的なトレードオフを明らかにするとともに、データ選択によって純粋に駆動されるテストエラーの2D動作を実証する。
論文 参考訳(メタデータ) (2026-01-30T14:39:51Z) - The Coverage Principle: How Pre-Training Enables Post-Training [70.25788947586297]
予備学習が最終モデルの成功をどう形作るかを検討する。
下流の性能予測におけるカバレッジのパワーを説明するメカニズムを明らかにする。
論文 参考訳(メタデータ) (2025-10-16T17:53:50Z) - Incorporating priors in learning: a random matrix study under a teacher-student framework [6.744353807473373]
正規化線形回帰は機械学習の中心であるが、その情報的先行を伴う高次元挙動はいまだに理解されていない。
本研究は,MAP回帰を最大化するためのトレーニングとテストのリスクを,初めて正確に評価するものである。
我々のフレームワークは、リッジ回帰、最小二乗、および事前インフォームド推定器を統一し、ランダム行列理論を用いて、閉形式リスク公式を生成する。
論文 参考訳(メタデータ) (2025-09-26T09:47:15Z) - Analyzing Generalization in Pre-Trained Symbolic Regression [17.789199791229624]
記号回帰アルゴリズムは、与えられたデータを説明する公式の数学的式空間を探索する。
トランスフォーマーベースのモデルは、高価な検索を大規模な事前学習フェーズに移行する、有望で有望なアプローチとして現れている。
論文 参考訳(メタデータ) (2025-09-24T07:47:02Z) - Multiply Robust Conformal Risk Control with Coarsened Data [0.0]
コンフォーマル予測(CP)は近年,膨大な関心を集めている。
本稿では、粗いデータから得られる結果に対して、分布自由な有効予測領域を得るという一般的な問題について考察する。
半パラメトリック理論の原則的利用は、フレキシブルな機械学習手法の促進の鍵となる利点を持つ。
論文 参考訳(メタデータ) (2025-08-21T12:14:44Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。