論文の概要: Symmetries, flat minima, and the conserved quantities of gradient flow
- arxiv url: http://arxiv.org/abs/2210.17216v1
- Date: Mon, 31 Oct 2022 10:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:41:42.050267
- Title: Symmetries, flat minima, and the conserved quantities of gradient flow
- Title(参考訳): 対称性, 平らなミニマおよび保存された勾配流量
- Authors: Bo Zhao, Iordan Ganev, Robin Walters, Rose Yu, Nima Dehmamy
- Abstract要約: パラメータ空間における連続対称性を見つけるための枠組みについて述べる。
ニューラルネットワークのための非線形・データ依存対称性を新たに導入する。
線形対称性に付随する保存量を用いて低損失谷に沿った座標を定義することができることを示す。
- 参考スコア(独自算出の注目度): 20.12938444246729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical studies of the loss landscape of deep networks have revealed that
many local minima are connected through low-loss valleys. Ensemble models
sampling different parts of a low-loss valley have reached SOTA performance.
Yet, little is known about the theoretical origin of such valleys. We present a
general framework for finding continuous symmetries in the parameter space,
which carve out low-loss valleys. Importantly, we introduce a novel set of
nonlinear, data-dependent symmetries for neural networks. These symmetries can
transform a trained model such that it performs similarly on new samples. We
then show that conserved quantities associated with linear symmetries can be
used to define coordinates along low-loss valleys. The conserved quantities
help reveal that using common initialization methods, gradient flow only
explores a small part of the global minimum. By relating conserved quantities
to convergence rate and sharpness of the minimum, we provide insights on how
initialization impacts convergence and generalizability. We also find the
nonlinear action to be viable for ensemble building to improve robustness under
certain adversarial attacks.
- Abstract(参考訳): ディープ・ネットワークの損失景観に関する実証的研究により、多くのローカル・ミニマが低損失の谷を通っていることが明らかになった。
低損失谷の様々な部分をサンプリングするアンサンブルモデルがSOTAのパフォーマンスに到達した。
しかし、これらの谷の理論的起源についてはほとんど分かっていない。
パラメータ空間における連続対称性を見つけるための一般的な枠組みについて述べる。
さらに,ニューラルネットのための非線形データ依存対称性を新たに導入する。
これらの対称性は、新しいサンプルでも同様に動作するように訓練されたモデルを変換することができる。
次に、線形対称性に関連する保存量を用いて、低損失谷に沿った座標を定義することができることを示す。
保存された量は、共通の初期化法を用いることで、勾配流が大域最小値のごく一部しか探索しないことを示すのに役立つ。
保存量と最小の収束率と鋭さを関連付けることにより、初期化が収束性と一般化可能性にどのように影響するかを洞察する。
また,特定の攻撃下でのロバスト性を改善するために,アンサンブル構築に非線形作用が有効であることも確認した。
関連論文リスト
- Implicit Balancing and Regularization: Generalization and Convergence
Guarantees for Overparameterized Asymmetric Matrix Sensing [28.77440901439686]
最近の一連の論文は、非ランダムな正準決定(PSD)行列センシング問題に対して、この役割を一般化し始めている。
本稿では,小さなランダムな測定から得られる勾配降下の軌跡が,どちらも地球規模で良好である解へと移動することを示す。
論文 参考訳(メタデータ) (2023-03-24T19:05:52Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Oracle-Preserving Latent Flows [58.720142291102135]
我々はラベル付きデータセット全体にわたって複数の非自明な連続対称性を同時に発見するための方法論を開発する。
対称性変換と対応するジェネレータは、特別に構築された損失関数で訓練された完全連結ニューラルネットワークでモデル化される。
この研究における2つの新しい要素は、縮小次元の潜在空間の使用と、高次元のオラクルに関して不変な変換への一般化である。
論文 参考訳(メタデータ) (2023-02-02T00:13:32Z) - Annihilation of Spurious Minima in Two-Layer ReLU Networks [9.695960412426672]
正方形損失に対する2層ReLUニューラルネットワークの適合に関する最適化問題について検討する。
ニューロンを追加することで、対称的な刺激性のミニマをサドルに変えることができる。
また、損失関数の対称性構造から生じるある種の部分空間における降下方向の存在を証明した。
論文 参考訳(メタデータ) (2022-10-12T11:04:21Z) - The Asymmetric Maximum Margin Bias of Quasi-Homogeneous Neural Networks [26.58848653965855]
準均質モデルのクラスを導入し、同質な活性化を伴うほぼ全てのニューラルネットワークを記述するのに十分な表現性を示す。
すべてのパラメータが等しく扱われる同質なモデルの場合とは異なり、勾配流はパラメータのサブセットを暗黙的に好んでいる。
論文 参考訳(メタデータ) (2022-10-07T21:14:09Z) - Deep Networks on Toroids: Removing Symmetries Reveals the Structure of
Flat Regions in the Landscape Geometry [3.712728573432119]
我々は、すべての対称性を除去し、トロイダルトポロジーをもたらす標準化されたパラメータ化を開発する。
最小化器の平坦性とそれらの接続する測地線経路の有意義な概念を導出する。
また、勾配勾配の変種によって発見された最小化器は、ゼロエラー経路と1つの曲がり角で接続可能であることも見いだした。
論文 参考訳(メタデータ) (2022-02-07T09:57:54Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - Log-Likelihood Ratio Minimizing Flows: Towards Robust and Quantifiable
Neural Distribution Alignment [52.02794488304448]
そこで本研究では,対数様比統計量と正規化フローに基づく新しい分布アライメント手法を提案する。
入力領域の局所構造を保存する領域アライメントにおいて,結果の最小化を実験的に検証する。
論文 参考訳(メタデータ) (2020-03-26T22:10:04Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - On the Principle of Least Symmetry Breaking in Shallow ReLU Models [13.760721677322072]
対象の重みに対する対称性の中期的損失は、より広範囲な設定に適用可能であることを示す。
これを受けて、我々はこの仮説を非等方性非積分布、滑らかな活性化関数、いくつかの層を持つネットワークの異なるクラスに相関させる一連の実験を行った。
論文 参考訳(メタデータ) (2019-12-26T22:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。