論文の概要: Combining Explicit and Implicit Regularization for Efficient Learning in
Deep Networks
- arxiv url: http://arxiv.org/abs/2306.00342v1
- Date: Thu, 1 Jun 2023 04:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:22:16.008389
- Title: Combining Explicit and Implicit Regularization for Efficient Learning in
Deep Networks
- Title(参考訳): 深層ネットワークにおける効率的な学習のための明示と暗黙の規則化の組み合わせ
- Authors: Dan Zhao
- Abstract要約: 深い線形ネットワークでは、勾配勾配は行列の完備化/ファクトリゼーションタスクの低ランク解に対して暗黙的に正規化される。
適応勾配の一般化にのみ作用するこの暗黙バイアスを反映した明示的なペナルティを提案する。
この組み合わせにより、単層ネットワークは、深い線形ネットワークに匹敵する縮退誤差で低ランク近似を達成できる。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Works on implicit regularization have studied gradient trajectories during
the optimization process to explain why deep networks favor certain kinds of
solutions over others. In deep linear networks, it has been shown that gradient
descent implicitly regularizes toward low-rank solutions on matrix
completion/factorization tasks. Adding depth not only improves performance on
these tasks but also acts as an accelerative pre-conditioning that further
enhances this bias towards low-rankedness. Inspired by this, we propose an
explicit penalty to mirror this implicit bias which only takes effect with
certain adaptive gradient optimizers (e.g. Adam). This combination can enable a
degenerate single-layer network to achieve low-rank approximations with
generalization error comparable to deep linear networks, making depth no longer
necessary for learning. The single-layer network also performs competitively or
out-performs various approaches for matrix completion over a range of parameter
and data regimes despite its simplicity. Together with an optimizer's inductive
bias, our findings suggest that explicit regularization can play a role in
designing different, desirable forms of regularization and that a more nuanced
understanding of this interplay may be necessary.
- Abstract(参考訳): 暗黙的正規化の研究は、なぜディープネットワークが他のネットワークよりも特定の種類の解を好むのかを説明するために最適化プロセス中の勾配軌道を研究した。
深い線形ネットワークでは、勾配降下が行列の完備化/ファクトリゼーションタスクにおける低ランク解に対して暗黙的に正規化されることが示されている。
深さを追加することでこれらのタスクのパフォーマンスが向上するだけでなく、低ランク化へのバイアスをさらに高める加速度的前提条件としても機能する。
このことに触発されて、ある適応的勾配最適化器(例えばアダム)でのみ作用するこの暗黙のバイアスを反映する明示的なペナルティを提案する。
この組み合わせにより、縮退した単層ネットワークは、深い線形ネットワークに匹敵する一般化誤差で低ランク近似を達成でき、学習に必要な深度は不要になる。
単一層ネットワークは、単純さに拘わらず、パラメータやデータレシエーションの範囲で、行列補完のための様々なアプローチを競合的に、あるいは性能的に実行します。
我々の研究は、最適化者の帰納バイアスとともに、明示的な正規化が、異なる望ましい正規化の形式を設計する上で重要な役割を果たし、この相互作用をより曖昧に理解する必要があることを示唆している。
関連論文リスト
- Component-based Sketching for Deep ReLU Nets [55.404661149594375]
各種タスクのためのディープネットコンポーネントに基づくスケッチ手法を開発した。
我々はディープネットトレーニングを線形経験的リスク最小化問題に変換する。
提案したコンポーネントベーススケッチは飽和関数の近似においてほぼ最適であることを示す。
論文 参考訳(メタデータ) (2024-09-21T15:30:43Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - ReduNet: A White-box Deep Network from the Principle of Maximizing Rate
Reduction [32.489371527159236]
この研究は、データ圧縮と識別表現の原理から、現代の深層(畳み込み)ネットワークを解釈することを目的とした、妥当な理論フレームワークの提供を試みる。
高次元マルチクラスデータに対して、最適な線形判別表現は、データセット全体と全てのサブセットの平均との符号化速度差を最大化することを示す。
速度減少目標を最適化するための基本的反復的勾配上昇スキームは,現代のディープネットワークの共通特性を共有する多層ディープネットワークであるReduNetに自然に導かれることを示す。
論文 参考訳(メタデータ) (2021-05-21T16:29:57Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Deep Networks from the Principle of Rate Reduction [32.87280757001462]
この研究は、レート還元と(シフト)不変分類の原理から、現代のディープ(畳み込み)ネットワークを解釈しようとする。
学習した特徴量の減少率を最適化するための基本的反復的漸進勾配法が,多層深層ネットワーク,すなわち1層1回を自然に導くことを示す。
この「ホワイトボックス」ネットワークの全てのコンポーネントは正確な最適化、統計学、幾何学的解釈を持っている。
論文 参考訳(メタデータ) (2020-10-27T06:01:43Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。