論文の概要: How Many Factors Influence Minima in SGD?
- arxiv url: http://arxiv.org/abs/2009.11858v1
- Date: Thu, 24 Sep 2020 17:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:13:00.220588
- Title: How Many Factors Influence Minima in SGD?
- Title(参考訳): SGDの最小値に影響を与える因子はいくつあるか?
- Authors: Victor Luo and Yazhen Wang
- Abstract要約: 勾配降下(SGD)は、しばしばディープニューラルネットワーク(DNN)の訓練に適用される。
研究は、SGDとSGDの収束力学とミニマムの研究に費やされている。
- 参考スコア(独自算出の注目度): 2.1320960069210484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) is often applied to train Deep Neural
Networks (DNNs), and research efforts have been devoted to investigate the
convergent dynamics of SGD and minima found by SGD. The influencing factors
identified in the literature include learning rate, batch size, Hessian, and
gradient covariance, and stochastic differential equations are used to model
SGD and establish the relationships among these factors for characterizing
minima found by SGD. It has been found that the ratio of batch size to learning
rate is a main factor in highlighting the underlying SGD dynamics; however, the
influence of other important factors such as the Hessian and gradient
covariance is not entirely agreed upon. This paper describes the factors and
relationships in the recent literature and presents numerical findings on the
relationships. In particular, it confirms the four-factor and general
relationship results obtained in Wang (2019), while the three-factor and
associated relationship results found in Jastrz\c{e}bski et al. (2018) may not
hold beyond the considered special case.
- Abstract(参考訳): 確率勾配降下(SGD)は、ディープニューラルネットワーク(DNN)の訓練にしばしば適用され、SGDが発見したSGDとミニマの収束力学の研究に研究努力が注がれている。
本論文で同定された要因は, 学習速度, バッチサイズ, ヘシアン, 勾配共分散などであり, 確率微分方程式を用いてSGDをモデル化し, それらの因子間の関係を確立することにより, SGDのミニマを特徴づける。
バッチサイズと学習率の比率は、基礎となるSGDのダイナミクスを強調する主要な要因であるが、ヘッセンや勾配の共分散のような他の重要な要因の影響は、完全には一致していない。
本稿では,最近の文献における要因と関係について述べるとともに,その関係に関する数値的考察を紹介する。
特に、Wang (2019) で得られた4要素および一般の関係結果を確認する一方で、Jastrz\c{e}bski et al. (2018) に見られる3要素および関連関係の結果は、考慮された特別な場合を超えては成立しない可能性がある。
関連論文リスト
- Identifiable Latent Polynomial Causal Models Through the Lens of Change [82.14087963690561]
因果表現学習は、観測された低レベルデータから潜在的な高レベル因果表現を明らかにすることを目的としている。
主な課題の1つは、識別可能性(identifiability)として知られるこれらの潜伏因果モデルを特定する信頼性の高い保証を提供することである。
論文 参考訳(メタデータ) (2023-10-24T07:46:10Z) - On Learning Necessary and Sufficient Causal Graphs [29.339455706346193]
実際には、グラフ内の変数の小さな部分集合のみが関心の結果に関係している。
本稿では,目的達成のための因果関係変数のみを含む,必要かつ十分な因果グラフ(NSCG)のクラスを学習することを提案する。
因果関係の確率と特徴の自然因果関係の理論的性質を確立することにより,必要な因果構造学習(NSCSL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-29T08:19:15Z) - GLACIAL: Granger and Learning-based Causality Analysis for Longitudinal
Studies [19.312260690210458]
我々は「Granger and LeArning-based CausalIty Analysis for Longitudinal Studies」を意味するGLACIALを提案する。
GLACIALは個人を独立したサンプルとして扱い、ホールドアウト個体の平均予測精度を使用して因果関係の効果をテストする。
合成および実データに関する大規模な実験はGLACIALの有用性を実証している。
論文 参考訳(メタデータ) (2022-10-13T23:42:13Z) - Disentanglement of Correlated Factors via Hausdorff Factorized Support [53.23740352226391]
本稿では,因子分布ではなく,因子化支援を助長する緩やかな解離基準,HFS(Hausdorff Factorized Support)基準を提案する。
本研究では,HFSを用いることにより,様々な相関設定やベンチマークにおいて,接地構造因子の絡み合いと回復が一貫して促進されることを示す。
論文 参考訳(メタデータ) (2022-10-13T20:46:42Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Large-Scale Differentiable Causal Discovery of Factor Graphs [3.8015092217142223]
本稿では,非線形低ランク因果相互作用モデルへの探索空間の方法として,因子指向非巡回グラフ(f-DAG)の概念を導入する。
本稿では,f-DAG制約因果探索のスケーラブルな実装を提案する。
論文 参考訳(メタデータ) (2022-06-15T21:28:36Z) - Effect Identification in Cluster Causal Diagrams [51.42809552422494]
クラスタ因果図(略してC-DAG)と呼ばれる新しいタイプのグラフィカルモデルを導入する。
C-DAGは、限定された事前知識に基づいて変数間の関係を部分的に定義することができる。
我々はC-DAGに対する因果推論のための基礎と機械を開発する。
論文 参考訳(メタデータ) (2022-02-22T21:27:31Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - CausalVAE: Structured Causal Disentanglement in Variational Autoencoder [52.139696854386976]
変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子をアンタングルするために一般的に用いられる。
本稿では, 因果内因性因子を因果内因性因子に変換する因果層を含むVOEベースの新しいフレームワークCausalVAEを提案する。
その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。
論文 参考訳(メタデータ) (2020-04-18T20:09:34Z) - Causal discovery of linear non-Gaussian acyclic models in the presence
of latent confounders [6.1221613913018675]
本稿では,反復因果探索 (RCD) と呼ばれる因果関数モデルに基づく手法を提案する。
RCDは、少数の観測変数間で因果方向を推論し、その関係が潜伏した共同設立者の影響を受けているかどうかを判定する。
論文 参考訳(メタデータ) (2020-01-13T12:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。