Fugu-MT 論文翻訳(概要): Scaling ResNets in the Large-depth Regime

論文の概要: Scaling ResNets in the Large-depth Regime

arxiv url: http://arxiv.org/abs/2206.06929v1
Date: Tue, 14 Jun 2022 15:49:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-15 14:14:02.282290
Title: Scaling ResNets in the Large-depth Regime
Title（参考訳）: 大規模レジームにおけるResNetのスケーリング
Authors: Pierre Marion, Adeline Fermanian, G\'erard Biau, Jean-Philippe Vert
Abstract要約: Deep ResNetは、複雑な機械学習タスクで最先端の結果を達成するために認識されている。これらのアーキテクチャの顕著なパフォーマンスは、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存しています。この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は、各レイヤの出力を$alpha_L$でスケーリングすることである。
参考スコア（独自算出の注目度）: 8.889304968879163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep ResNets are recognized for achieving state-of-the-art results in complex machine learning tasks. However, the remarkable performance of these architectures relies on a training procedure that needs to be carefully crafted to avoid vanishing or exploding gradients, particularly as the depth $L$ increases. No consensus has been reached on how to mitigate this issue, although a widely discussed strategy consists in scaling the output of each layer by a factor $\alpha_L$. We show in a probabilistic setting that with standard i.i.d. initializations, the only non-trivial dynamics is for $\alpha_L = 1/\sqrt{L}$ (other choices lead either to explosion or to identity mapping). This scaling factor corresponds in the continuous-time limit to a neural stochastic differential equation, contrarily to a widespread interpretation that deep ResNets are discretizations of neural ordinary differential equations. By contrast, in the latter regime, stability is obtained with specific correlated initializations and $\alpha_L = 1/L$. Our analysis suggests a strong interplay between scaling and regularity of the weights as a function of the layer index. Finally, in a series of experiments, we exhibit a continuous range of regimes driven by these two parameters, which jointly impact performance before and after training.
Abstract（参考訳）: Deep ResNetは、複雑な機械学習タスクで最先端の結果を達成するために認識されている。しかしながら、これらのアーキテクチャの顕著なパフォーマンスは、特に深度$L$が増加するにつれて、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存している。この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は各レイヤの出力を$\alpha_L$でスケーリングすることである。確率的設定では、標準 i.d. 初期化の場合、唯一の非自明な力学は$\alpha_L = 1/\sqrt{L}$である(他の選択は爆発やアイデンティティマッピングにつながる)。このスケーリング係数は、ニューラル・確率微分方程式の連続時間限界に対応し、ディープ・レスネットがニューラル・常微分方程式の離散化であるという広い解釈に反する。対照的に、後者のレジームでは、安定性は特定の相関初期化と$\alpha_l = 1/l$で得られる。分析の結果,重みのスケーリングと規則性の間には,層指数の関数としての強い相互作用が示唆された。最後に,一連の実験において,これら2つのパラメータによって駆動される連続的なレジームを示し,トレーニング前後のパフォーマンスに共同で影響することを示した。

関連論文リスト

Optimization and generalization analysis for two-layer physics-informed neural networks without over-parametrization [0.6215404942415159]
本研究は、物理インフォームドニューラルネットワーク(PINN)を用いた最小二乗回帰の解法における勾配降下(SGD)の挙動に焦点を当てる。ネットワーク幅が$epsilon$と問題のみに依存するしきい値を超えると、トレーニング損失と期待損失は$O(epsilon)$以下になる。
論文参考訳（メタデータ） (2025-07-22T09:24:22Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文参考訳（メタデータ） (2024-06-06T23:19:57Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Non-convex Bayesian Learning via Stochastic Gradient Markov Chain Monte Carlo [4.656426393230839]
人工知能(AI)の台頭は、非トリップと不確実性のための現代のディープニューラルネットワーク(DNN)の効率性を重視している。本論文ではモンテカルロ利用問題を扱うためのツールを提案する。また,基礎となる正規方程式(ODE)システムに対する2つの動的重要度サンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-05-30T18:25:11Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。我々の手法は古典的DPベースの推論に広く適用できる。また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文参考訳（メタデータ） (2021-12-07T11:26:41Z)
Training Integrable Parameterizations of Deep Neural Networks in the Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。 2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文参考訳（メタデータ） (2021-10-29T07:53:35Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。彼らは不利な姿勢と収束の不安定さに悩まされる。本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文参考訳（メタデータ） (2021-06-06T18:05:02Z)
Overparameterization of deep ResNet: zero loss and mean-field analysis [19.45069138853531]
データに適合するディープニューラルネットワーク(NN)内のパラメータを見つけることは、非最適化問題である。基礎的な一階述語最適化法(漸進降下法)は,多くの現実的状況に完全に適合した大域的解を求める。所定の閾値未満の損失を減らすために必要な深さと幅を高い確率で推定する。
論文参考訳（メタデータ） (2021-05-30T02:46:09Z)
Scaling Properties of Deep Residual Networks [2.6763498831034043]
勾配降下法によりトレーニングした重りの性質と, ネットワーク深度によるスケーリングについて, 数値実験により検討した。神経ODE文学で想定されるものとは大きく異なるスケーリング体制の存在を観察する。これらの結果は、ディープResNetの適切な記述として、ニューラルODEモデルの有効性に疑問を投げかけた。
論文参考訳（メタデータ） (2021-05-25T22:31:30Z)
The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文参考訳（メタデータ） (2020-06-08T16:43:56Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。