論文の概要: Layerwise Linear Mode Connectivity
- arxiv url: http://arxiv.org/abs/2307.06966v1
- Date: Thu, 13 Jul 2023 09:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:59:07.584655
- Title: Layerwise Linear Mode Connectivity
- Title(参考訳): 層状線形モード接続性
- Authors: Linara Adilova, Asja Fischer, Martin Jaggi
- Abstract要約: フェデレートされたセットアップでは、より強力なグローバルモデルを得るために、トレーニング中に複数の異なるローカルモデルのアグリゲーションを行う。
連合型ディープラーニングのような一般的な理解は、高性能なモデルを得るのを妨げるオープンな挑戦である。
我々の予想では、フェデレートされたトレーニングバリアが成功するのを防ぐことは、特定のレイヤやレイヤのグループによって引き起こされる。
- 参考スコア(独自算出の注目度): 62.83988785235033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the federated setup one performs an aggregation of separate local models
multiple times during training in order to obtain a stronger global model; most
often aggregation is a simple averaging of the parameters. Understanding when
and why averaging works in a non-convex setup, such as federated deep learning,
is an open challenge that hinders obtaining highly performant global models. On
i.i.d.~datasets federated deep learning with frequent averaging is successful.
The common understanding, however, is that during the independent training
models are drifting away from each other and thus averaging may not work
anymore after many local parameter updates. The problem can be seen from the
perspective of the loss surface: for points on a non-convex surface the average
can become arbitrarily bad. The assumption of local convexity, often used to
explain the success of federated averaging, contradicts to the empirical
evidence showing that high loss barriers exist between models from the very
beginning of the learning, even when training on the same data. Based on the
observation that the learning process evolves differently in different layers,
we investigate the barrier between models in a layerwise fashion. Our
conjecture is that barriers preventing from successful federated training are
caused by a particular layer or group of layers.
- Abstract(参考訳): フェデレートされたセットアップでは、より強力なグローバルモデルを得るために、トレーニング中に複数の異なるローカルモデルのアグリゲーションを実行する。
平均化がfederated deep learningのような非凸的なセットアップで機能する理由を理解することは、高度にパフォーマンスの高いグローバルモデルを得るのを妨げる、オープンな課題である。
i.d.~データセットは、頻繁な平均化を伴う深層学習が成功している。
しかし、一般的な理解では、独立したトレーニングモデルの間は互いに離れていき、多くのローカルパラメータが更新された後、平均値がもはや機能しない可能性がある。
この問題は損失面の観点から見ることができる:非凸面上の点の場合、平均は任意に悪くなる。
平均平均化の成功を説明するためにしばしば用いられる局所凸性の仮定は、同じデータでトレーニングしても、学習の初期段階からモデルの間に高い損失障壁が存在することを示す経験的証拠と矛盾する。
学習プロセスが異なる層で異なる進化を遂げているという観察に基づいて,モデル間の障壁を階層的に検討する。
我々の予想では、フェデレーショントレーニングの成功を妨げる障壁は、特定の層または層のグループによって引き起こされる。
関連論文リスト
- Phantom Embeddings: Using Embedding Space for Model Regularization in
Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。
複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。
情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T17:15:54Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - On the effectiveness of partial variance reduction in federated learning
with heterogeneous data [27.527995694042506]
クライアント間の最終分類層の多様性は、FedAvgアルゴリズムの性能を阻害することを示す。
そこで本研究では,最終層のみの分散還元によるモデル修正を提案する。
同様の通信コストや低い通信コストで既存のベンチマークを著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-05T11:56:35Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Investigating the Relationship Between Dropout Regularization and Model
Complexity in Neural Networks [0.0]
ドロップアウト規則化は、ディープラーニングモデルのばらつきを低減するのに役立つ。
2,000のニューラルネットワークをトレーニングすることにより,ドロップアウト率とモデル複雑性の関係について検討する。
各密層に隠されたユニットの数から、最適なドロップアウト率を予測するニューラルネットワークを構築します。
論文 参考訳(メタデータ) (2021-08-14T23:49:33Z) - MOCCA: Multi-Layer One-Class ClassificAtion for Anomaly Detection [16.914663209964697]
我々は,Multi-Layer One-Class Classification (MOCCA) と呼ばれる異常検出問題に対するディープラーニングアプローチを提案する。
異なる深さで抽出された情報を利用して異常なデータインスタンスを検出することで、ディープニューラルネットワークのピースワイズ的性質を明示的に活用します。
本稿では,本手法が文献で利用可能な最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-09T08:32:56Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。