論文の概要: Latent State Models of Training Dynamics
- arxiv url: http://arxiv.org/abs/2308.09543v2
- Date: Wed, 15 Nov 2023 23:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 22:35:43.115347
- Title: Latent State Models of Training Dynamics
- Title(参考訳): トレーニングダイナミクスの潜在状態モデル
- Authors: Michael Y. Hu, Angelica Chen, Naomi Saphra, Kyunghyun Cho
- Abstract要約: 異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
- 参考スコア(独自算出の注目度): 51.88132043461152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impact of randomness on model training is poorly understood. How do
differences in data order and initialization actually manifest in the model,
such that some training runs outperform others or converge faster? Furthermore,
how can we interpret the resulting training dynamics and the phase transitions
that characterize different trajectories? To understand the effect of
randomness on the dynamics and outcomes of neural network training, we train
models multiple times with different random seeds and compute a variety of
metrics throughout training, such as the $L_2$ norm, mean, and variance of the
neural network's weights. We then fit a hidden Markov model (HMM) over the
resulting sequences of metrics. The HMM represents training as a stochastic
process of transitions between latent states, providing an intuitive overview
of significant changes during training. Using our method, we produce a
low-dimensional, discrete representation of training dynamics on grokking
tasks, image classification, and masked language modeling. We use the HMM
representation to study phase transitions and identify latent "detour" states
that slow down convergence.
- Abstract(参考訳): モデルトレーニングに対するランダム性の影響は理解されていない。
データ順序と初期化の違いは、モデルに実際にどのように現れるのか?
さらに、異なる軌道を特徴づけるトレーニングダイナミクスと相転移をどのように解釈するか。
ニューラルネットワークトレーニングのダイナミクスと結果に対するランダム性の影響を理解するために、異なるランダム種を用いたモデルを複数回トレーニングし、トレーニングを通して様々なメトリクス(例えば、$l_2$ norm、平均、ニューラルネットワークの重みの分散)を計算する。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
HMMは、トレーニングを潜在状態間の遷移の確率的なプロセスとして表現し、トレーニング中の重要な変化の直感的な概要を提供する。
本手法を用いて,グルーキングタスク,画像分類,マスマスキング言語モデリングにおけるトレーニングダイナミクスの低次元離散表現を生成する。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Enhancing Neural Training via a Correlated Dynamics Model [2.9302545029880394]
相関モード分解(CMD)は、パラメータ空間をグループにクラスタリングし、エポック間の同期動作を表示するアルゴリズムである。
トレーニングと同時に動作するように設計された効率的なCMDバリアントを導入する。
実験の結果,CMD は画像分類のコンパクトなモデル化のための最先端手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-20T18:22:49Z) - Identifying Equivalent Training Dynamics [3.793387630509845]
共役および非共役のトレーニングダイナミクスを識別するフレームワークを開発する。
クープマン作用素理論の進歩を利用して、クープマン固有値を比較することで、オンラインミラー降下とオンライン勾配降下の既知同値を正しく同定できることを実証する。
a)浅層ニューラルネットワークと広層ニューラルネットワークの間の非共役トレーニングダイナミクスの同定、(b)畳み込みニューラルネットワークにおけるトレーニングダイナミクスの初期段階の特徴付け、(c)グルーキングを行わないトランスフォーマーにおける非共役トレーニングダイナミクスの発見。
論文 参考訳(メタデータ) (2023-02-17T22:15:20Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Characterizing and overcoming the greedy nature of learning in
multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。
本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文 参考訳(メタデータ) (2022-02-10T20:11:21Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Regularized Sequential Latent Variable Models with Adversarial Neural
Networks [33.74611654607262]
逐次データの変動をモデル化するために,RNN で高レベル潜時確率変数を使用する方法を提案する。
変動RNNモデルの学習に逆法を用いる可能性を探る。
論文 参考訳(メタデータ) (2021-08-10T08:05:14Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。