Fugu-MT 論文翻訳(概要): Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit

論文の概要: Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit

arxiv url: http://arxiv.org/abs/2406.06909v1
Date: Tue, 11 Jun 2024 03:07:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 19:36:38.536071
Title: Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit
Title（参考訳）: 高次元極限における非線形コントラスト学習モデルの学習ダイナミクス
Authors: Lineghuan Meng, Chuang Wang,
Abstract要約: モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する L2正則化の下で、このPDEは低次元常微分方程式(ODE)の閉集合に還元する。 ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。
参考スコア（独自算出の注目度）: 1.7597525104451157
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This letter presents a high-dimensional analysis of the training dynamics for a single-layer nonlinear contrastive learning model. The empirical distribution of the model weights converges to a deterministic measure governed by a McKean-Vlasov nonlinear partial differential equation (PDE). Under L2 regularization, this PDE reduces to a closed set of low-dimensional ordinary differential equations (ODEs), reflecting the evolution of the model performance during the training process. We analyze the fixed point locations and their stability of the ODEs unveiling several interesting findings. First, only the hidden variable's second moment affects feature learnability at the state with uninformative initialization. Second, higher moments influence the probability of feature selection by controlling the attraction region, rather than affecting local stability. Finally, independent noises added in the data argumentation degrade performance but negatively correlated noise can reduces the variance of gradient estimation yielding better performance. Despite of the simplicity of the analyzed model, it exhibits a rich phenomena of training dynamics, paving a way to understand more complex mechanism behind practical large models.
Abstract（参考訳）: 本論文は, 単層非線形コントラスト学習モデルにおける学習力学の高次元的解析について述べる。モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する。 L2正規化の下では、このPDEは訓練過程におけるモデル性能の進化を反映して、低次元常微分方程式(ODE)の閉集合に還元される。 ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。まず、隠された変数の2番目のモーメントだけが、非形式的初期化を伴う状態における機能の学習性に影響を与える。第二に、高次モーメントは局所安定性に影響を与えるのではなく、アトラクション領域を制御することによって特徴選択の確率に影響を与える。最後に、データ議論で付加される独立ノイズは性能を低下させるが、負に相関するノイズは、勾配推定のばらつきを低減し、性能が向上する。解析モデルの単純さにもかかわらず、これは訓練力学の豊富な現象を示し、実用的な大規模モデルの背後にあるより複雑なメカニズムを理解する方法を確立している。

関連論文リスト

Monotone Peridynamic Neural Operator for Nonlinear Material Modeling with Conditionally Unique Solutions [8.178003326156418]
ニューラル演算子に基づく新しいデータ駆動非局所モデル学習手法であるモノトンペリダイナミックニューラル演算子(MPNO)を導入する。 MPNOは非局所核と非線形関係を学習し、モノトーン勾配ネットワークを通じて解の特異性を保証する。我々は,MPNOが従来のニューラルネットワークよりも優れた一般化能力を示すことを示す。
論文参考訳（メタデータ） (2025-05-02T07:10:31Z)
No Equations Needed: Learning System Dynamics Without Relying on Closed-Form ODEs [56.78271181959529]
本稿では,従来の2段階モデリングプロセスから離れることで,低次元力学系をモデル化する概念シフトを提案する。最初に閉形式方程式を発見して解析する代わりに、我々のアプローチ、直接意味モデリングは力学系の意味表現を予測する。私たちのアプローチは、モデリングパイプラインを単純化するだけでなく、結果のモデルの透明性と柔軟性も向上します。
論文参考訳（メタデータ） (2025-01-30T18:36:48Z)
Improving the Noise Estimation of Latent Neural Stochastic Differential Equations [4.64982780843177]
SDE(Latent Neural differential equations)は、最近時系列データから生成モデルを学習するための有望なアプローチとして登場した。本稿では, この過小評価を詳細に検討し, 損失関数に付加的な雑音正規化を加えることで, 簡単な解法を提案する。我々はデータの拡散成分を正確に捉えるモデルを学ぶことができる。
論文参考訳（メタデータ） (2024-12-23T11:56:35Z)
Modeling Latent Neural Dynamics with Gaussian Process Switching Linear Dynamical Systems [2.170477444239546]
ガウス過程スイッチング線形力学系(gpSLDS)の2つの目的をバランスさせるアプローチを開発する。我々の手法は、非線形力学をガウス過程(GP-SDE)で記述した微分方程式による潜在状態の進化をモデル化した以前の研究に基づいている。本手法は, 離散状態境界近傍の力学における人工振動など, rSLDS の重要な限界を解消するとともに, 力学の後方不確かさを推定する。
論文参考訳（メタデータ） (2024-07-19T15:32:15Z)
Physically Analyzable AI-Based Nonlinear Platoon Dynamics Modeling During Traffic Oscillation: A Koopman Approach [4.379212829795889]
物理的アナライザビリティを同時に達成しつつ、高精度なモデリング手法が不可欠である。本稿では,AIのパワーを利用した未知の非線形プラトン力学をモデル化するためのAIベースのクープマン手法を提案する。
論文参考訳（メタデータ） (2024-06-20T19:35:21Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Deep Latent Force Models: ODE-based Process Convolutions for Bayesian Deep Learning [0.0]
深潜力モデル (DLFM) は、各層に物理インフォームドカーネルを持つ深いガウス過程である。我々はDLFMの非線形実世界の時系列データに現れるダイナミクスを捉える能力の実証的証拠を提示する。 DLFMは,非物理インフォームド確率モデルに匹敵する性能を達成できることがわかった。
論文参考訳（メタデータ） (2023-11-24T19:55:57Z)
Learning Space-Time Continuous Neural PDEs from Partially Observed States [13.01244901400942]
格子独立モデル学習偏微分方程式(PDE)を雑音および不規則格子上の部分的な観測から導入する。本稿では、効率的な確率的フレームワークとデータ効率とグリッド独立性を改善するための新しい設計エンコーダを備えた時空間連続型ニューラルネットワークPDEモデルを提案する。
論文参考訳（メタデータ） (2023-07-09T06:53:59Z)
Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文参考訳（メタデータ） (2023-05-27T21:25:55Z)
Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文参考訳（メタデータ） (2023-04-08T07:55:36Z)
Learning Physics-Informed Neural Networks without Stacked Back-propagation [82.26566759276105]
我々は,物理インフォームドニューラルネットワークのトレーニングを著しく高速化する新しい手法を開発した。特に、ガウス滑らか化モデルによりPDE解をパラメータ化し、スタインの恒等性から導かれる2階微分がバックプロパゲーションなしで効率的に計算可能であることを示す。実験の結果,提案手法は通常のPINN訓練に比べて2桁の精度で競合誤差を実現できることがわかった。
論文参考訳（メタデータ） (2022-02-18T18:07:54Z)
Estimation of Bivariate Structural Causal Models by Variational Gaussian Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文参考訳（メタデータ） (2021-09-06T14:52:58Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。