Fugu-MT 論文翻訳(概要): Layer-wise Linear Mode Connectivity

論文の概要: Layer-wise Linear Mode Connectivity

arxiv url: http://arxiv.org/abs/2307.06966v3
Date: Tue, 19 Mar 2024 12:50:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 01:00:25.089581
Title: Layer-wise Linear Mode Connectivity
Title（参考訳）: 層ワイドリニアモード接続性
Authors: Linara Adilova, Maksym Andriushchenko, Michael Kamp, Asja Fischer, Martin Jaggi,
Abstract要約: ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。フェデレートラーニングにおいて最も顕著に用いられている。私たちは、単一グループやグループを平均化するモデルの性能を分析します。
参考スコア（独自算出の注目度）: 52.6945036534469
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Averaging neural network parameters is an intuitive method for fusing the knowledge of two independent models. It is most prominently used in federated learning. If models are averaged at the end of training, this can only lead to a good performing model if the loss surface of interest is very particular, i.e., the loss in the midpoint between the two models needs to be sufficiently low. This is impossible to guarantee for the non-convex losses of state-of-the-art networks. For averaging models trained on vastly different datasets, it was proposed to average only the parameters of particular layers or combinations of layers, resulting in better performing models. To get a better understanding of the effect of layer-wise averaging, we analyse the performance of the models that result from averaging single layers, or groups of layers. Based on our empirical and theoretical investigation, we introduce a novel notion of the layer-wise linear connectivity, and show that deep networks do not have layer-wise barriers between them.
Abstract（参考訳）: ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識を融合させる直感的な方法である。連邦学習において最も顕著に用いられている。トレーニングの終わりにモデルが平均化されると、関心の損失面が非常に特殊である場合、すなわち、2つのモデルの間の中間点の損失が十分に低くなければならない場合にのみ、優れたパフォーマンスモデルをもたらす。これは、最先端ネットワークの非凸損失を保証することは不可能である。非常に異なるデータセットでトレーニングされた平均モデルに対して、特定のレイヤのパラメータやレイヤの組み合わせだけを平均化して、よりよいパフォーマンスのモデルが提案された。レイヤワイド平均化の効果をより深く理解するために、単一のレイヤやレイヤのグループを平均化するモデルの性能を分析します。実験的および理論的研究に基づき、我々は層幅線形接続という新しい概念を導入し、深層ネットワークが層幅障壁を持たないことを示す。

関連論文リスト

Input Conditioned Layer Dropping in Speech Foundation Models [11.05223262950967]
層ドロップ(mathcalLD$)は、計算負荷を減らすために、推論中にバックボーンネットワークの層の一部をスキップする。本稿では,ネットワークの入力機能と,処理層の最適組み合わせを決定するための軽量層選択ネットワークを用いた入力駆動$mathcalLD$を提案する。
論文参考訳（メタデータ） (2025-07-10T17:39:03Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Phantom Embeddings: Using Embedding Space for Model Regularization in Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-14T17:15:54Z)
Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文参考訳（メタデータ） (2022-12-05T14:47:52Z)
On the effectiveness of partial variance reduction in federated learning with heterogeneous data [27.527995694042506]
クライアント間の最終分類層の多様性は、FedAvgアルゴリズムの性能を阻害することを示す。そこで本研究では,最終層のみの分散還元によるモデル修正を提案する。同様の通信コストや低い通信コストで既存のベンチマークを著しく上回っていることを実証する。
論文参考訳（メタデータ） (2022-12-05T11:56:35Z)
Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文参考訳（メタデータ） (2022-09-30T15:15:05Z)
Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文参考訳（メタデータ） (2021-12-04T18:07:47Z)
Investigating the Relationship Between Dropout Regularization and Model Complexity in Neural Networks [0.0]
ドロップアウト規則化は、ディープラーニングモデルのばらつきを低減するのに役立つ。 2,000のニューラルネットワークをトレーニングすることにより,ドロップアウト率とモデル複雑性の関係について検討する。各密層に隠されたユニットの数から、最適なドロップアウト率を予測するニューラルネットワークを構築します。
論文参考訳（メタデータ） (2021-08-14T23:49:33Z)
MOCCA: Multi-Layer One-Class ClassificAtion for Anomaly Detection [16.914663209964697]
我々は,Multi-Layer One-Class Classification (MOCCA) と呼ばれる異常検出問題に対するディープラーニングアプローチを提案する。異なる深さで抽出された情報を利用して異常なデータインスタンスを検出することで、ディープニューラルネットワークのピースワイズ的性質を明示的に活用します。本稿では,本手法が文献で利用可能な最先端手法と比較して優れた性能を示す。
論文参考訳（メタデータ） (2020-12-09T08:32:56Z)
Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できるこのモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文参考訳（メタデータ） (2020-03-13T13:11:35Z)
Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文参考訳（メタデータ） (2019-10-12T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。