論文の概要: Ridge Rider: Finding Diverse Solutions by Following Eigenvectors of the
Hessian
- arxiv url: http://arxiv.org/abs/2011.06505v1
- Date: Thu, 12 Nov 2020 17:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 07:25:08.643924
- Title: Ridge Rider: Finding Diverse Solutions by Following Eigenvectors of the
Hessian
- Title(参考訳): Ridge Rider: Hessian の固有ベクトルに追従して様々な解を求める
- Authors: Jack Parker-Holder, Luke Metz, Cinjon Resnick, Hengyuan Hu, Adam
Lerer, Alistair Letcher, Alex Peysakhovich, Aldo Pacchiano, Jakob Foerster
- Abstract要約: Gradient Descent(SGD)は、ディープニューラルネットワーク(DNN)の成功の鍵となる要素である
本稿では、ヘッセンの固有ベクトルを従えば「尾根」と呼ばれる別のアプローチを示す。
理論的および実験的に、我々の手法であるリッジライダー(RR)が様々な課題に対して有望な方向を提供することを示す。
- 参考スコア(独自算出の注目度): 48.61341260604871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last decade, a single algorithm has changed many facets of our lives
- Stochastic Gradient Descent (SGD). In the era of ever decreasing loss
functions, SGD and its various offspring have become the go-to optimization
tool in machine learning and are a key component of the success of deep neural
networks (DNNs). While SGD is guaranteed to converge to a local optimum (under
loose assumptions), in some cases it may matter which local optimum is found,
and this is often context-dependent. Examples frequently arise in machine
learning, from shape-versus-texture-features to ensemble methods and zero-shot
coordination. In these settings, there are desired solutions which SGD on
'standard' loss functions will not find, since it instead converges to the
'easy' solutions. In this paper, we present a different approach. Rather than
following the gradient, which corresponds to a locally greedy direction, we
instead follow the eigenvectors of the Hessian, which we call "ridges". By
iteratively following and branching amongst the ridges, we effectively span the
loss surface to find qualitatively different solutions. We show both
theoretically and experimentally that our method, called Ridge Rider (RR),
offers a promising direction for a variety of challenging problems.
- Abstract(参考訳): 過去10年間で、1つのアルゴリズムが私たちの生活の多くの側面(確率的勾配降下(sgd))を変えた。
損失関数の絶え間なく減少する時代において、SGDとその子孫は機械学習におけるゴート最適化ツールとなり、ディープニューラルネットワーク(DNN)の成功の重要な要素となっている。
SGD は(ゆるやかな仮定の下で)局所最適に収束することが保証されているが、ある場合においてどの局所最適が見つかるかは問題であり、しばしば文脈に依存している。
例えば、shape-versus-texture-featuresからアンサンブルメソッド、ゼロショットコーディネーションまでである。
これらの設定では、SGD が '標準' 損失関数では見つからないが、代わりに 'easy' 解に収束する。
本稿では,異なるアプローチを提案する。
局所的なグリーディ方向に対応する勾配に従う代わりに、我々は「リッジズ」と呼ばれるヘッシアンの固有ベクトルに従う。
尾根間を反復的に追従し分岐することで、損失面に効果的にまたがり、質的に異なる解を見つける。
理論的および実験的に、我々の手法であるリッジライダー(RR)が様々な課題に対して有望な方向を提供することを示す。
関連論文リスト
- Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Efficient Quality-Diversity Optimization through Diverse Quality Species [3.428706362109921]
我々は,アーカイブの必要をなくしたり,事前の動作範囲を定義したりすることなく,多様な解の集団を見つけることができることを示す。
本稿では,アーカイブベースの品質多様性(QD)アルゴリズムの代替として,DQS(Diverse Quality Species)を提案する。
論文 参考訳(メタデータ) (2023-04-14T23:15:51Z) - Random initialisations performing above chance and how to find them [22.812660025650253]
Entezariらは最近、異なる初期化にもかかわらず、SGDが発見した解は、ニューラルネットワークの置換不変性を考慮して同じ損失谷にあると推測した。
ここでは、そのような置換を見つけるために、単純だが強力なアルゴリズムを用いて、完全に接続されたネットワークにおいて仮説が真であるという直接的な実証的な証拠を得ることができる。
2つのネットワークは、初期化時に既に同じ損失谷に住んでおり、そのランダム性を平均化していますが、適切に置換された初期化は、かなり高い確率で実行されます。
論文 参考訳(メタデータ) (2022-09-15T17:52:54Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - On the Convergence to a Global Solution of Shuffling-Type Gradient
Algorithms [18.663264755108703]
勾配降下アルゴリズム (SGD) は、多くの機械学習タスクにおいて選択の方法である。
本稿では,SGDが凸設定として望まれる計算一般複雑性を達成したことを示す。
論文 参考訳(メタデータ) (2022-06-13T01:25:59Z) - Message Passing Neural PDE Solvers [60.77761603258397]
我々は、バックプロップ最適化されたニューラル関数近似器で、グラフのアリーデザインのコンポーネントを置き換えるニューラルメッセージパッシング解決器を構築した。
本稿では, 有限差分, 有限体積, WENOスキームなどの古典的手法を表現的に含んでいることを示す。
本研究では, 異なる領域のトポロジ, 方程式パラメータ, 離散化などにおける高速, 安定, 高精度な性能を, 1次元, 2次元で検証する。
論文 参考訳(メタデータ) (2022-02-07T17:47:46Z) - Lyapunov Exponents for Diversity in Differentiable Games [19.16909724435523]
Ridge Rider (RR) はヘシアン(リッジ)の固有ベクトルに従うことによって最適化問題の多様な解を求めるアルゴリズムである。
RRは保守的な勾配系のために設計されており、サドルで分岐する。
本稿では,任意の分岐点を求める手法として,一般化リッジライダー(GRR)を提案する。
論文 参考訳(メタデータ) (2021-12-24T22:48:14Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Physarum Powered Differentiable Linear Programming Layers and
Applications [48.77235931652611]
一般線形プログラミング問題に対する効率的かつ微分可能な解法を提案する。
本稿では,ビデオセグメンテーションタスクとメタラーニングにおける問題解決手法について述べる。
論文 参考訳(メタデータ) (2020-04-30T01:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。