論文の概要: Two-Time-Scale Learning Dynamics: A Population View of Neural Network Training
- arxiv url: http://arxiv.org/abs/2603.19808v2
- Date: Wed, 25 Mar 2026 17:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 14:25:25.879859
- Title: Two-Time-Scale Learning Dynamics: A Population View of Neural Network Training
- Title(参考訳): 2時間学習のダイナミクス:ニューラルネットワーク学習の人口的視点
- Authors: Giacomo Borghi, Hyesung Im, Lorenzo Pareschi,
- Abstract要約: 本稿では,2段階の人口動態に基づくニューラルネットワーク学習の理論的枠組みを提案する。
閉鎖型か集団レベルの推定によって、効果的なフィットネスへのアクセスは、人口レベルの更新を改善することができることを示す。
- 参考スコア(独自算出の注目度): 0.2676349883103403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Population-based learning paradigms, including evolutionary strategies, Population-Based Training (PBT), and recent model-merging methods, combine fast within-model optimisation with slower population-level adaptation. Despite their empirical success, a general mathematical description of the resulting collective training dynamics remains incomplete. We introduce a theoretical framework for neural network training based on two-time-scale population dynamics. We model a population of neural networks as an interacting agent system in which network parameters evolve through fast noisy gradient updates of SGD/Langevin type, while hyperparameters evolve through slower selection--mutation dynamics. We prove the large-population limit for the joint distribution of parameters and hyperparameters and, under strong time-scale separation, derive a selection--mutation equation for the hyperparameter density. For each fixed hyperparameter, the fast parameter dynamics relaxes to a Boltzmann--Gibbs measure, inducing an effective fitness for the slow evolution. The averaged dynamics connects population-based learning with bilevel optimisation and classical replicator--mutator models, yields conditions under which the population mean moves toward the fittest hyperparameter, and clarifies the role of noise and diversity in balancing optimisation and exploration. Numerical experiments illustrate both the large-population regime and the reduced two-time-scale dynamics, and indicate that access to the effective fitness, either in closed form or through population-level estimation, can improve population-level updates.
- Abstract(参考訳): 人口ベース学習パラダイムには、進化戦略、人口ベーストレーニング(PBT)、最近のモデルマージ手法などが含まれる。
その経験的成功にもかかわらず、結果として生じる集合的訓練力学の一般的な数学的記述はいまだ不完全である。
本稿では,2段階の人口動態に基づくニューラルネットワーク学習の理論的枠組みを提案する。
我々は、SGD/Langevin型の高速ノイズ勾配更新によってネットワークパラメータが進化する相互作用エージェントシステムとして、ニューラルネットワークの集団をモデル化する。
パラメータとハイパーパラメータの共分散に対する大きな人口制限を証明し、強い時間スケール分離の下では、ハイパーパラメータ密度の選択-変化方程式を導出する。固定されたハイパーパラメータごとに、高速パラメータのダイナミクスはボルツマン-ギブス測度に緩和され、遅い進化の有効な適合性が誘導される。
平均力学は、人口ベース学習と二段階最適化と古典的複製子-ミュータモデルとを結び、人口平均が最も適したハイパーパラメータに向かって動く条件を導き、最適化と探索のバランスをとる上でのノイズと多様性の役割を明らかにする。
数値実験は,大人口体制と2段階の2段階の動態の両立を図示し,閉鎖型か集団レベルの推定による有効適合性へのアクセスが,人口レベルの更新を改善することを示唆している。
関連論文リスト
- Fractional Spike Differential Equations Neural Network with Efficient Adjoint Parameters Training [63.3991315762955]
スパイキングニューラルネットワーク(SNN)は、生物学的ニューロンからインスピレーションを得て、脳に似た計算の現実的なモデルを作成する。
既存のほとんどのSNNは、マルコフ特性を持つ一階常微分方程式(ODE)によってモデル化された、神経細胞膜電圧ダイナミクスの単一時間定数を仮定している。
本研究では, 膜電圧およびスパイク列車の長期依存性を分数次力学により捉えるフラクタルSPIKE微分方程式ニューラルネットワーク (fspikeDE) を提案する。
論文 参考訳(メタデータ) (2025-07-22T18:20:56Z) - Langevin Flows for Modeling Neural Latent Dynamics [81.81271685018284]
逐次変分自動エンコーダであるLangevinFlowを導入し、潜伏変数の時間的進化をアンダーダム化したLangevin方程式で制御する。
われわれのアプローチは、慣性、減衰、学習されたポテンシャル関数、力などの物理的事前を組み込んで、ニューラルネットワークにおける自律的および非自律的プロセスの両方を表現する。
本手法は,ロレンツ誘引器によって生成される合成神経集団に対する最先端のベースラインより優れる。
論文 参考訳(メタデータ) (2025-07-15T17:57:48Z) - Structured State Space Model Dynamics and Parametrization for Spiking Neural Networks [0.8321953606016751]
多状態スパイクニューロンは、従来のディープラーニングモデルに代わる魅力的な代替手段を提供する。
状態空間モデル(SSM)は、スパイキングニューロンのサブスレッショルド状態に類似した線形状態-内在的再発を用いた長いシーケンス処理において優れている。
そこで我々は,SSMと2次スパイキングニューロンモデルの間に数学的ブリッジを確立する。
論文 参考訳(メタデータ) (2025-06-04T13:54:02Z) - Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks [33.88586668321127]
本研究は,ディープニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討する。
本研究では, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習率のウォームアップを著しく低減できることを示した。
論文 参考訳(メタデータ) (2023-05-26T19:14:01Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Dynamics with autoregressive neural quantum states: application to
critical quench dynamics [41.94295877935867]
本稿では、量子系の長時間のダイナミクスを安定的に捉えるための代替の汎用スキームを提案する。
二次元量子イジングモデルにおけるキブル・ズレーク機構の解明により,時間依存性のクエンチ力学にこのスキームを適用した。
論文 参考訳(メタデータ) (2022-09-07T15:50:00Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Bubblewrap: Online tiling and real-time flow prediction on neural
manifolds [2.624902795082451]
本稿では, 高速で安定な次元減少と, 結果のニューラル多様体のソフトタイリングを結合する手法を提案する。
得られたモデルはキロヘルツのデータレートでトレーニングでき、数分で神経力学の正確な近似を生成し、ミリ秒以下の時間スケールで予測を生成する。
論文 参考訳(メタデータ) (2021-08-31T16:01:45Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。