Fugu-MT 論文翻訳(概要): Revisiting "Qualitatively Characterizing Neural Network Optimization Problems"

論文の概要: Revisiting "Qualitatively Characterizing Neural Network Optimization Problems"

arxiv url: http://arxiv.org/abs/2012.06898v1
Date: Sat, 12 Dec 2020 20:01:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-10 05:26:27.258981
Title: Revisiting "Qualitatively Characterizing Neural Network Optimization Problems"
Title（参考訳）: ニューラルネットワーク最適化問題の質的特徴付け」を再考
Authors: Jonathan Frankle
Abstract要約: Goodfellowらの実験を再検討し、拡張します。 2014. これは、CIFAR-10およびImageNet上の現代のネットワークには当てはまりません。私たちは、Goodfellowらにもかかわらず、結論付けます。最近の設定では、動作が質的に異なるため、MNISTの設定は「比較的簡単に最適化できます」と説明しています。
参考スコア（独自算出の注目度）: 11.753360538833139
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We revisit and extend the experiments of Goodfellow et al. (2014), who showed that - for then state-of-the-art networks - "the objective function has a simple, approximately convex shape" along the linear path between initialization and the trained weights. We do not find this to be the case for modern networks on CIFAR-10 and ImageNet. Instead, although loss is roughly monotonically non-increasing along this path, it remains high until close to the optimum. In addition, training quickly becomes linearly separated from the optimum by loss barriers. We conclude that, although Goodfellow et al.'s findings describe the "relatively easy to optimize" MNIST setting, behavior is qualitatively different in modern settings.
Abstract（参考訳）: 我々はGoodfellowらの実験を再検討し、拡張する。 (2014) は、初期化と訓練された重みの間の線形経路に沿って「目的関数は単純でほぼ凸な形状」であることを示した。 CIFAR-10 や ImageNet 上の最新のネットワークでは,このような状況は見られない。代わりに、この経路に沿って損失は概ね単調に増加しないが、最適に近づくまで高いままである。さらに、損失バリアにより、トレーニングはすぐに最適から線形に分離される。結論は、Goodfellowなどである。のMNIST設定を記述しており、現代の設定では行動は質的に異なる。

関連論文リスト

Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Implicit regularization in AI meets generalized hardness of approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。これを近似の一般化硬度における相転移現象と関連付ける。結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文参考訳（メタデータ） (2023-07-13T13:27:51Z)
Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。この2つの設定の間には自然なシナジーがあることが示されています。この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文参考訳（メタデータ） (2021-11-25T19:59:33Z)
What can linear interpolation of neural network loss landscapes tell us? [11.753360538833139]
ロスランドスケープは、人間が理解しやすい方法で可視化することが非常に難しいことで知られています。この問題に対処する一般的な方法は、ランドスケープの線形スライスをプロットすることである。
論文参考訳（メタデータ） (2021-06-30T11:54:04Z)
Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2021-06-15T06:39:13Z)
On the Explicit Role of Initialization on the Convergence and Implicit Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。正方形損失はその最適値に指数関数的に収束することを示す。我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文参考訳（メタデータ） (2021-05-13T15:13:51Z)
Dissecting Supervised Constrastive Learning [24.984074794337157]
高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することができることを示す。
論文参考訳（メタデータ） (2021-02-17T15:22:38Z)
LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。 LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文参考訳（メタデータ） (2020-12-21T06:40:20Z)
Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文参考訳（メタデータ） (2020-09-05T02:25:23Z)
Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文参考訳（メタデータ） (2020-02-25T11:40:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。