論文の概要: Do Deep Neural Network Solutions Form a Star Domain?
- arxiv url: http://arxiv.org/abs/2403.07968v2
- Date: Sun, 9 Jun 2024 11:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:53:58.321066
- Title: Do Deep Neural Network Solutions Form a Star Domain?
- Title(参考訳): ディープニューラルネットワークはスタードメインを形成するか?
- Authors: Ankit Sonthalia, Alexander Rubinstein, Ehsan Abbasnejad, Seong Joon Oh,
- Abstract要約: 本稿では,与えられた学習課題のスターモデルを求めるスターライトアルゴリズムを提案する。
得られた恒星領域上でのベイズモデル平均値に対するより良い不確実性の推定を実証する。
- 参考スコア(独自算出の注目度): 68.66750305473163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has recently been conjectured that neural network solution sets reachable via stochastic gradient descent (SGD) are convex, considering permutation invariances (Entezari et al., 2022). This means that a linear path can connect two independent solutions with low loss, given the weights of one of the models are appropriately permuted. However, current methods to test this theory often require very wide networks to succeed. In this work, we conjecture that more generally, the SGD solution set is a "star domain" that contains a "star model" that is linearly connected to all the other solutions via paths with low loss values, modulo permutations. We propose the Starlight algorithm that finds a star model of a given learning task. We validate our claim by showing that this star model is linearly connected with other independently found solutions. As an additional benefit of our study, we demonstrate better uncertainty estimates on the Bayesian Model Averaging over the obtained star domain. Further, we demonstrate star models as potential substitutes for model ensembles. Our code is available at https://github.com/aktsonthalia/starlight.
- Abstract(参考訳): 近年、確率勾配降下(SGD)を介して到達可能なニューラルネットワーク解集合は、置換不変性を考慮して凸であると推測されている(Entezari et al , 2022)。
これは、モデルの1つの重みが適切に置換されていることを考慮すれば、線形経路が2つの独立解を低損失で接続することができることを意味する。
しかし、この理論をテストするための現在の手法は、しばしば成功するために非常に広いネットワークを必要とする。
この研究において、より一般的には、SGD解集合は「スターモデル」を含む「スター領域」であり、損失値の低い経路、モジュロ置換によって他のすべての解と線型に接続されていると推測する。
本稿では,与えられた学習課題のスターモデルを求めるスターライトアルゴリズムを提案する。
我々は、この星モデルが他の独立に発見された解と線形に結びついていることを示すことによって、我々の主張を検証する。
この研究のさらなる利点として、得られた恒星領域に対するベイズモデル平均値に関するより良い不確実性の推定を実証する。
さらに、モデルアンサンブルの代替としてスターモデルを示す。
私たちのコードはhttps://github.com/aktsonthalia/starlight.comから入手可能です。
関連論文リスト
- LinSATNet: The Positive Linear Satisfiability Neural Networks [116.65291739666303]
本稿では,ニューラルネットワークに人気の高い正の線形満足度を導入する方法について検討する。
本稿では,古典的なシンクホーンアルゴリズムを拡張し,複数の辺分布の集合を共同で符号化する,最初の微分可能満足層を提案する。
論文 参考訳(メタデータ) (2024-07-18T22:05:21Z) - Typical and atypical solutions in non-convex neural networks with
discrete and continuous weights [2.7127628066830414]
ランダムな規則や関連を学習する単純な非拘束型ネットワークモデルとして、二項および連続負マージンパーセプトロンについて検討する。
どちらのモデルも、非常に平坦で幅の広い劣支配的な最小化器を示す。
両モデルにおいて、学習装置としての一般化性能は、広い平坦な最小化器の存在により大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-04-26T23:34:40Z) - Graph Neural Network Bandits [89.31889875864599]
グラフ構造データ上で定義された報酬関数を用いた帯域最適化問題を考察する。
この設定の主な課題は、大きなドメインへのスケーリングと、多くのノードを持つグラフへのスケーリングである。
グラフニューラルネットワーク(GNN)を用いて報酬関数を推定できることを示す。
論文 参考訳(メタデータ) (2022-07-13T18:12:36Z) - Diffusion models as plug-and-play priors [98.16404662526101]
我々は、事前の$p(mathbfx)$と補助的な制約である$c(mathbfx,mathbfy)$からなるモデルにおいて、高次元データ$mathbfx$を推論する問題を考える。
拡散モデルの構造は,異なるノイズ量に富んだ定性デノナイジングネットワークを通じて,微分を反復することで近似推論を行うことができる。
論文 参考訳(メタデータ) (2022-06-17T21:11:36Z) - Walk for Learning: A Random Walk Approach for Federated Learning from
Heterogeneous Data [17.978941229970886]
私たちは標準的アプリケーションとしてフェデレートラーニング(FL)に注目します。
FLの主な課題の1つは、ノードとパラメータサーバの間の通信ボトルネックである。
適応型ランダムウォーク学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T19:53:24Z) - Distributionally Robust Semi-Supervised Learning Over Graphs [68.29280230284712]
グラフ構造化データに対する半教師付き学習(SSL)は、多くのネットワークサイエンスアプリケーションに現れる。
グラフ上の学習を効率的に管理するために,近年,グラフニューラルネットワーク(GNN)の変種が開発されている。
実際に成功したにも拘わらず、既存の手法のほとんどは、不確実な結節属性を持つグラフを扱うことができない。
ノイズ測定によって得られたデータに関連する分布の不確実性によっても問題が発生する。
分散ロバストな学習フレームワークを開発し,摂動に対する定量的ロバスト性を示すモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-20T14:23:54Z) - Feature Cross Search via Submodular Optimization [58.15569071608769]
機能工学の基本的な基礎として機能横断探索について研究する。
この問題に対して単純なgreedy $(1-1/e)$-approximationアルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2021-07-05T16:58:31Z) - How to Explain Neural Networks: A perspective of data space division [2.4499092754102874]
ディープラーニングで表されるアルゴリズムの解釈可能性はまだオープンな問題です。
本稿では,説明の2つの属性に基づく既存の説明可能な手法の欠点について論じる。
本稿では,データ空間分割の観点から,完全局所解釈可能なモデル非依存説明法(CLIMEP)の原理を提案する。
論文 参考訳(メタデータ) (2021-05-17T13:43:37Z) - Training Generative Adversarial Networks via stochastic Nash games [2.995087247817663]
GAN(Generative Adversarial Network)は、ジェネレータと識別器という2つの対角ニューラルネットワークを持つ生成モデルのクラスである。
データの数が増加すると、正確な解に収束することを示す。
また, サンプル数が少ない場合, SRFBアルゴリズムの平均変種を解の近傍に収束させることも示した。
論文 参考訳(メタデータ) (2020-10-17T09:07:40Z) - A game-theoretic approach for Generative Adversarial Networks [2.995087247817663]
GAN(Generative Adversarial Network)は、生成モデルの一種で、正確なサンプルを作成することで知られている。
彼らの実装の主なボトルネックは、ニューラルネットワークのトレーニングが非常に難しいことだ。
本稿では,GANに対する緩和されたフォワードバックワードアルゴリズムを提案する。
ゲームの擬階写像が単調であるとき、正確な解やその近傍に収束することが証明される。
論文 参考訳(メタデータ) (2020-03-30T17:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。