論文の概要: Mode Combinability: Exploring Convex Combinations of Permutation Aligned
Models
- arxiv url: http://arxiv.org/abs/2308.11511v1
- Date: Tue, 22 Aug 2023 15:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 13:17:38.897025
- Title: Mode Combinability: Exploring Convex Combinations of Permutation Aligned
Models
- Title(参考訳): モード結合性: 置換整合モデルの凸結合を探索する
- Authors: Adri\'an Csisz\'arik, Melinda F. Kiss, P\'eter K\H{o}r\"osi-Szab\'o,
M\'arton Muntag, Gergely Papp, D\'aniel Varga
- Abstract要約: 置換整列ニューラルネットワークパラメータベクトル$Theta_A$と$Theta_B$ of size$d$の凸結合について検討した。
ハイパーキューブの広い領域は損失値の低い曲面を形成しており、線形モード接続の概念がより一般的な現象にまで拡張されていることを示す。
- 参考スコア(独自算出の注目度): 0.559239450391449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore element-wise convex combinations of two permutation-aligned neural
network parameter vectors $\Theta_A$ and $\Theta_B$ of size $d$. We conduct
extensive experiments by examining various distributions of such model
combinations parametrized by elements of the hypercube $[0,1]^{d}$ and its
vicinity. Our findings reveal that broad regions of the hypercube form surfaces
of low loss values, indicating that the notion of linear mode connectivity
extends to a more general phenomenon which we call mode combinability. We also
make several novel observations regarding linear mode connectivity and model
re-basin. We demonstrate a transitivity property: two models re-based to a
common third model are also linear mode connected, and a robustness property:
even with significant perturbations of the neuron matchings the resulting
combinations continue to form a working model. Moreover, we analyze the
functional and weight similarity of model combinations and show that such
combinations are non-vacuous in the sense that there are significant functional
differences between the resulting models.
- Abstract(参考訳): 置換整列型ニューラルネットワークパラメータベクトル$\Theta_A$と$\Theta_B$ of size $d$の要素対凸結合について検討する。
超キューブ $[0,1]^{d}$ とその近傍の要素によってパラメトリ化されたモデルの組み合わせの様々な分布を調べることにより、広範な実験を行う。
その結果, ハイパーキューブの広い領域は損失値の低い表面を形成しており, 線形モード接続の概念は, 我々がモード結合性と呼ぶより一般的な現象にまで拡張していることがわかった。
また,線形モード接続とモデル再ベースに関する新しい観測を行った。
移動性特性を示す: 共通の3番目のモデルに再基づいた2つのモデルもまた線形モードに接続され、ロバスト性特性: ニューロンの大きな摂動があっても、結果として得られる組み合わせは動作モデルを形成し続ける。
さらに, モデル組み合わせの機能的および重量的類似性を解析し, モデル間に有意な機能的差異があるという意味で, それらの組み合わせは空でないことを示す。
関連論文リスト
- ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。
構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文 参考訳(メタデータ) (2024-05-22T15:23:10Z) - Shape Arithmetic Expressions: Advancing Scientific Discovery Beyond Closed-Form Equations [56.78271181959529]
GAM(Generalized Additive Models)は、変数とターゲットの間の非線形関係をキャプチャできるが、複雑な特徴相互作用をキャプチャすることはできない。
本稿では,GAMのフレキシブルな形状関数と,数学的表現に見られる複雑な特徴相互作用を融合させる形状表現算術(SHARE)を提案する。
また、標準制約を超えた表現の透明性を保証するSHAREを構築するための一連のルールを設計する。
論文 参考訳(メタデータ) (2024-04-15T13:44:01Z) - Git Re-Basin: Merging Models modulo Permutation Symmetries [3.5450828190071655]
提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。
我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。
また、線形モード接続仮説の欠点についても論じる。
論文 参考訳(メタデータ) (2022-09-11T10:44:27Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Kernel Methods and Multi-layer Perceptrons Learn Linear Models in High
Dimensions [25.635225717360466]
完全連結ネットワークのニューラルカーネルを含む多数のカーネルに対して、カーネル法は特定の高次元状態における線形モデルと同等にしか機能しないことを示す。
高次元解析には、独立な特徴以外のデータに対するより複雑なモデルが必要である。
論文 参考訳(メタデータ) (2022-01-20T09:35:46Z) - Bilinear Classes: A Structural Framework for Provable Generalization in
RL [119.42509700822484]
Bilinear Classesは強化学習の一般化を可能にする新しい構造フレームワークである。
このフレームワークは、サンプルの複雑さが達成可能な、ほとんどすべての既存のモデルを取り込んでいる。
我々の主な成果は、双線形クラスのためのサンプル複雑性を持つRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-19T16:34:20Z) - Reconstruction of Pairwise Interactions using Energy-Based Models [3.553493344868414]
ペアワイズモデルとニューラルネットワークを組み合わせたハイブリッドモデルは,ペアワイズインタラクションの再構築において有意な改善をもたらす可能性があることを示す。
これは、単純な解釈可能なモデルと複雑なブラックボックスモデルが必ずしも二分法ではないという一般的な考え方と一致している。
論文 参考訳(メタデータ) (2020-12-11T20:15:10Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - Flexible Bayesian Nonlinear Model Configuration [10.865434331546126]
線形あるいは単純なパラメトリックモデルはしばしば入力変数と応答の間の複雑な関係を記述するのに十分ではない。
高いフレキシブルな非線形パラメトリック回帰モデルの構築と選択に柔軟なアプローチを導入する。
遺伝的に修飾されたモードジャンプチェーンモンテカルロアルゴリズムを用いてベイズ推論を行う。
論文 参考訳(メタデータ) (2020-03-05T21:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。