論文の概要: Git Re-Basin: Merging Models modulo Permutation Symmetries
- arxiv url: http://arxiv.org/abs/2209.04836v1
- Date: Sun, 11 Sep 2022 10:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:26:14.130033
- Title: Git Re-Basin: Merging Models modulo Permutation Symmetries
- Title(参考訳): Git Re-Basin: モデルをマージするModulo Permutation Symmetries
- Authors: Samuel K. Ainsworth, Jonathan Hayase, Siddhartha Srinivasa
- Abstract要約: 提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。
我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。
また、線形モード接続仮説の欠点についても論じる。
- 参考スコア(独自算出の注目度): 3.5450828190071655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of deep learning is thanks to our ability to solve certain
massive non-convex optimization problems with relative ease. Despite non-convex
optimization being NP-hard, simple algorithms -- often variants of stochastic
gradient descent -- exhibit surprising effectiveness in fitting large neural
networks in practice. We argue that neural network loss landscapes contain
(nearly) a single basin, after accounting for all possible permutation
symmetries of hidden units. We introduce three algorithms to permute the units
of one model to bring them into alignment with units of a reference model. This
transformation produces a functionally equivalent set of weights that lie in an
approximately convex basin near the reference model. Experimentally, we
demonstrate the single basin phenomenon across a variety of model architectures
and datasets, including the first (to our knowledge) demonstration of
zero-barrier linear mode connectivity between independently trained ResNet
models on CIFAR-10 and CIFAR-100. Additionally, we identify intriguing
phenomena relating model width and training time to mode connectivity across a
variety of models and datasets. Finally, we discuss shortcomings of a single
basin theory, including a counterexample to the linear mode connectivity
hypothesis.
- Abstract(参考訳): ディープラーニングの成功は、ある種の大規模な非凸最適化問題を比較的簡単に解決できる能力のおかげです。
非凸最適化はnpハードであるが、単純なアルゴリズム(しばしば確率的勾配降下の変種)は、大規模ニューラルネットワークを実際に適合させるのに驚くべき効果を示す。
我々は、ニューラルネットワークの損失景観は、隠れた単位のあらゆる置換対称性を考慮して、(ほぼ)単一の盆地を含むと主張する。
我々は、参照モデルの単位に合わせるために、1つのモデルの単位をパーミュレートする3つのアルゴリズムを導入する。
この変換は、参照モデルの近くの概凸盆地にある関数的に等価な重みの組を生成する。
実験では,CIFAR-10 と CIFAR-100 上で独立に訓練された ResNet モデル間のゼロバリアリニアモード接続のデモを含む,さまざまなモデルアーキテクチャやデータセットにまたがる単一の盆地現象を実証した。
さらに、モデル幅とトレーニング時間に関連する興味深い現象を特定し、様々なモデルやデータセット間の接続をモード化する。
最後に、線形モード接続仮説に対する反例を含む単一の盆地理論の欠点について議論する。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures [14.551812310439004]
モデルベースアーキテクチャでは,各インスタンスの計測領域におけるデータの一貫性を一致させるために,トレーニングされていないフォワードモデル残差ブロックを導入する。
提案手法は,パラメータ感受性が低く,追加データを必要としない統一解を提供し,前方モデルの同時適用と1パスの再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-07T19:02:13Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - A Deep Dive into the Connections Between the Renormalization Group and
Deep Learning in the Ising Model [0.0]
再正規化群(Renormalization group、RG)は、統計物理学と量子場理論において必須の手法である。
本研究では, 1D と 2D Ising モデルに対する広範な再正規化手法を開発し, 比較のためのベースラインを提供する。
2次元イジングモデルでは、Wolffアルゴリズムを用いてIsingモデルサンプルを生成し、準決定論的手法を用いてグループフローを実行した。
論文 参考訳(メタデータ) (2023-08-21T22:50:54Z) - Accurate deep learning sub-grid scale models for large eddy simulations [0.0]
大型渦流シミュレーション(LES)のために開発されたサブグリッドスケール(SGS)乱流モデルについて述べる。
彼らの開発には、物理インフォームド・ロバストで効率的なDeep Learning (DL)アルゴリズムの定式化が必要だった。
2つの摩擦レイノルズ数における正準流路流れの直接シミュレーションによるデータの明示的なフィルタリングは、訓練と試験のための正確なデータを提供した。
論文 参考訳(メタデータ) (2023-07-19T15:30:06Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - RMFGP: Rotated Multi-fidelity Gaussian process with Dimension Reduction
for High-dimensional Uncertainty Quantification [12.826754199680474]
マルチフィデリティモデリングは、少量の正確なデータしか入手できない場合でも、正確な推測を可能にする。
高忠実度モデルと1つ以上の低忠実度モデルを組み合わせることで、多忠実度法は興味のある量の正確な予測を行うことができる。
本稿では,回転多要素ガウス過程の回帰に基づく新しい次元削減フレームワークとベイズ能動学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-11T01:20:35Z) - T-LoHo: A Bayesian Regularization Model for Structured Sparsity and
Smoothness on Graphs [0.0]
グラフ構造化データでは、構造化されたスパーシリティと滑らかさが団結する傾向にある。
グラフィカルな関係を持つ高次元パラメータに先立って提案する。
構造された空間と滑らかさを同時に検出するために使用します。
論文 参考訳(メタデータ) (2021-07-06T10:10:03Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。