論文の概要: Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit
- arxiv url: http://arxiv.org/abs/2406.06909v1
- Date: Tue, 11 Jun 2024 03:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 19:36:38.536071
- Title: Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit
- Title(参考訳): 高次元極限における非線形コントラスト学習モデルの学習ダイナミクス
- Authors: Lineghuan Meng, Chuang Wang,
- Abstract要約: モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する
L2正則化の下で、このPDEは低次元常微分方程式(ODE)の閉集合に還元する。
ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。
- 参考スコア(独自算出の注目度): 1.7597525104451157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This letter presents a high-dimensional analysis of the training dynamics for a single-layer nonlinear contrastive learning model. The empirical distribution of the model weights converges to a deterministic measure governed by a McKean-Vlasov nonlinear partial differential equation (PDE). Under L2 regularization, this PDE reduces to a closed set of low-dimensional ordinary differential equations (ODEs), reflecting the evolution of the model performance during the training process. We analyze the fixed point locations and their stability of the ODEs unveiling several interesting findings. First, only the hidden variable's second moment affects feature learnability at the state with uninformative initialization. Second, higher moments influence the probability of feature selection by controlling the attraction region, rather than affecting local stability. Finally, independent noises added in the data argumentation degrade performance but negatively correlated noise can reduces the variance of gradient estimation yielding better performance. Despite of the simplicity of the analyzed model, it exhibits a rich phenomena of training dynamics, paving a way to understand more complex mechanism behind practical large models.
- Abstract(参考訳): 本論文は, 単層非線形コントラスト学習モデルにおける学習力学の高次元的解析について述べる。
モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する。
L2正規化の下では、このPDEは訓練過程におけるモデル性能の進化を反映して、低次元常微分方程式(ODE)の閉集合に還元される。
ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。
まず、隠された変数の2番目のモーメントだけが、非形式的初期化を伴う状態における機能の学習性に影響を与える。
第二に、高次モーメントは局所安定性に影響を与えるのではなく、アトラクション領域を制御することによって特徴選択の確率に影響を与える。
最後に、データ議論で付加される独立ノイズは性能を低下させるが、負に相関するノイズは、勾配推定のばらつきを低減し、性能が向上する。
解析モデルの単純さにもかかわらず、これは訓練力学の豊富な現象を示し、実用的な大規模モデルの背後にあるより複雑なメカニズムを理解する方法を確立している。
関連論文リスト
- Physically Analyzable AI-Based Nonlinear Platoon Dynamics Modeling During Traffic Oscillation: A Koopman Approach [4.379212829795889]
物理的アナライザビリティを同時に達成しつつ、高精度なモデリング手法が不可欠である。
本稿では,AIのパワーを利用した未知の非線形プラトン力学をモデル化するためのAIベースのクープマン手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T19:35:21Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Deep Latent Force Models: ODE-based Process Convolutions for Bayesian
Deep Learning [0.0]
深潜力モデル (DLFM) は、各層に物理インフォームドカーネルを持つ深いガウス過程である。
我々はDLFMの非線形実世界の時系列データに現れるダイナミクスを捉える能力の実証的証拠を提示する。
DLFMは,非物理インフォームド確率モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-11-24T19:55:57Z) - Learning Space-Time Continuous Neural PDEs from Partially Observed
States [13.01244901400942]
格子独立モデル学習偏微分方程式(PDE)を雑音および不規則格子上の部分的な観測から導入する。
本稿では、効率的な確率的フレームワークとデータ効率とグリッド独立性を改善するための新しい設計エンコーダを備えた時空間連続型ニューラルネットワークPDEモデルを提案する。
論文 参考訳(メタデータ) (2023-07-09T06:53:59Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Learning Physics-Informed Neural Networks without Stacked
Back-propagation [82.26566759276105]
我々は,物理インフォームドニューラルネットワークのトレーニングを著しく高速化する新しい手法を開発した。
特に、ガウス滑らか化モデルによりPDE解をパラメータ化し、スタインの恒等性から導かれる2階微分がバックプロパゲーションなしで効率的に計算可能であることを示す。
実験の結果,提案手法は通常のPINN訓練に比べて2桁の精度で競合誤差を実現できることがわかった。
論文 参考訳(メタデータ) (2022-02-18T18:07:54Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Learning Partially Known Stochastic Dynamics with Empirical PAC Bayes [12.44342023476206]
本稿では,これらのモデルの予測精度を3段階で向上させる手法を提案する。
実験では、このレシピは、部分的およびノイズの多い事前知識を改良されたモデル適合に効果的に翻訳することを示した。
論文 参考訳(メタデータ) (2020-06-17T14:47:06Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。