論文の概要: On Alignment in Deep Linear Neural Networks
- arxiv url: http://arxiv.org/abs/2003.06340v2
- Date: Wed, 17 Jun 2020 01:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:14:17.821803
- Title: On Alignment in Deep Linear Neural Networks
- Title(参考訳): 深部線形ニューラルネットワークにおけるアライメントについて
- Authors: Adityanarayanan Radhakrishnan and Eshaan Nichani and Daniel Bernstein
and Caroline Uhler
- Abstract要約: 勾配勾配下での線形ニューラルネットワークにおけるアライメント,すなわち暗黙正則化の特性について検討する。
勾配勾配降下は投影された勾配降下と等価であり、十分に大きなデータセットではアライメントが不可能であることを示す。
- 参考スコア(独自算出の注目度): 7.4566384906383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the properties of alignment, a form of implicit regularization, in
linear neural networks under gradient descent. We define alignment for fully
connected networks with multidimensional outputs and show that it is a natural
extension of alignment in networks with 1-dimensional outputs as defined by Ji
and Telgarsky, 2018. While in fully connected networks, there always exists a
global minimum corresponding to an aligned solution, we analyze alignment as it
relates to the training process. Namely, we characterize when alignment is an
invariant of training under gradient descent by providing necessary and
sufficient conditions for this invariant to hold. In such settings, the
dynamics of gradient descent simplify, thereby allowing us to provide an
explicit learning rate under which the network converges linearly to a global
minimum. We then analyze networks with layer constraints such as convolutional
networks. In this setting, we prove that gradient descent is equivalent to
projected gradient descent, and that alignment is impossible with sufficiently
large datasets.
- Abstract(参考訳): 勾配勾配下での線形ニューラルネットワークにおけるアライメント,すなわち暗黙正則化の特性について検討する。
多次元アウトプットを持つ完全連結ネットワークのアライメントを定義し,ji と telgarsky が2018年に定義した1次元アウトプットを持つネットワークにおけるアライメントの自然な拡張であることを示す。
完全に接続されたネットワークでは、常にアライメントされたソリューションに対応するグローバルな最小値が存在し、トレーニングプロセスに関連するアライメントを分析する。
すなわち、アライメントが勾配降下下のトレーニングの不変量である場合、この不変量を保持するために必要な十分な条件を提供することによって特徴付ける。
このような環境では、勾配降下のダイナミクスが単純化され、ネットワークが線形に大域的最小値に収束する明示的な学習率を提供できる。
次に畳み込みネットワークなどの層制約を持つネットワークを分析する。
この設定では、勾配降下は投影勾配降下と等価であり、十分に大きなデータセットではアライメントが不可能であることを示す。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Deep orthogonal linear networks are shallow [9.434391240650266]
勾配勾配降下による重みのトレーニングは、勾配勾配降下による全因子化のトレーニングと等価であることを示す。
これは、この設定では過度なパラメータ化と暗黙のバイアスがまったく影響しないことを意味する。
論文 参考訳(メタデータ) (2020-11-27T16:57:19Z) - A Unifying View on Implicit Bias in Training Linear Neural Networks [31.65006970108761]
線形ニューラルネットワークトレーニングにおける勾配流(無限小ステップサイズの勾配勾配勾配勾配)の暗黙バイアスについて検討する。
本稿では, ニューラルネットワークのテンソルの定式化について検討し, 完全連結型, 対角型, 畳み込み型ネットワークを特殊な場合として提案する。
論文 参考訳(メタデータ) (2020-10-06T06:08:35Z) - Directional convergence and alignment in deep learning [38.73942298289583]
交差エントロピーと関連する分類損失の最小化は無限大であるが, ネットワーク重みは勾配流により方向収束することを示した。
この証明は、ReLU、最大プール、線形および畳み込み層を許容する深い均質ネットワークに対して成り立つ。
論文 参考訳(メタデータ) (2020-06-11T17:50:11Z) - Neural Subdivision [58.97214948753937]
本稿では,データ駆動型粗粒度モデリングの新しいフレームワークであるNeural Subdivisionを紹介する。
すべてのローカルメッシュパッチで同じネットワーク重みのセットを最適化するため、特定の入力メッシュや固定属、カテゴリに制約されないアーキテクチャを提供します。
単一の高分解能メッシュでトレーニングしても,本手法は新規な形状に対して合理的な区分を生成する。
論文 参考訳(メタデータ) (2020-05-04T20:03:21Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。