論文の概要: Mirror Descent Maximizes Generalized Margin and Can Be Implemented
Efficiently
- arxiv url: http://arxiv.org/abs/2205.12808v1
- Date: Wed, 25 May 2022 14:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 18:33:57.629174
- Title: Mirror Descent Maximizes Generalized Margin and Can Be Implemented
Efficiently
- Title(参考訳): 鏡の輝きが一般化マージンを最大化し、効率よく実装できる
- Authors: Haoyuan Sun, Kwangjun Ahn, Christos Thrampoulidis, Navid Azizan
- Abstract要約: p$-$textsfGD$が学習モデルの構造と一般化性能に顕著に影響を及ぼすことを示す。
また、$p$-$textsfGD$はSGDと同じ方法で完全に並列であり、ディープニューラルネットワークのトレーニングに使用できることを示す。
- 参考スコア(独自算出の注目度): 34.438887960077025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by the empirical success and wide use of deep neural networks,
understanding the generalization performance of overparameterized models has
become an increasingly popular question. To this end, there has been
substantial effort to characterize the implicit bias of the optimization
algorithms used, such as gradient descent (GD), and the structural properties
of their preferred solutions. This paper answers an open question in this
literature: For the classification setting, what solution does mirror descent
(MD) converge to? Specifically, motivated by its efficient implementation, we
consider the family of mirror descent algorithms with potential function chosen
as the $p$-th power of the $\ell_p$-norm, which is an important generalization
of GD. We call this algorithm $p$-$\textsf{GD}$. For this family, we
characterize the solutions it obtains and show that it converges in direction
to a generalized maximum-margin solution with respect to the $\ell_p$-norm for
linearly separable classification. While the MD update rule is in general
expensive to compute and perhaps not suitable for deep learning,
$p$-$\textsf{GD}$ is fully parallelizable in the same manner as SGD and can be
used to train deep neural networks with virtually no additional computational
overhead. Using comprehensive experiments with both linear and deep neural
network models, we demonstrate that $p$-$\textsf{GD}$ can noticeably affect the
structure and the generalization performance of the learned models.
- Abstract(参考訳): 経験的成功と深層ニューラルネットワークの広範な使用により、過パラメータ化モデルの一般化性能を理解することが、ますます人気が高まっている。
この目的のために、勾配降下 (gd) のような最適化アルゴリズムの暗黙のバイアスと、それらの望ましい解の構造的性質を特徴付けるために、かなりの努力がなされてきた。
分類設定のために、ミラー降下 (mirror descent, md) はどんな解決策に収束するのか?
具体的には、その効率的な実装を動機として、GDの重要な一般化である$\ell_p$-normの$p$-thパワーとして選択されたポテンシャル関数を持つミラー降下アルゴリズムの族を考える。
このアルゴリズムを$p$-$\textsf{GD}$と呼ぶ。
この族について、得られる解を特徴付け、線形分離可能な分類の$\ell_p$-norm に関して一般化された最大マージン解に収束することを示す。
MD更新ルールは一般的に計算にコストがかかり、おそらくディープラーニングには適さないが、$p$-$\textsf{GD}$はSGDと同じ方法で完全に並列化可能であり、事実上計算オーバーヘッドのないディープニューラルネットワークのトレーニングに使用できる。
線形ニューラルネットワークモデルと深層ニューラルネットワークモデルの両方を用いた包括的実験を用いて,$p$-$\textsf{gd}$が学習モデルの構造と一般化性能に顕著に影響を及ぼすことを実証した。
関連論文リスト
- Memory-Efficient Gradient Unrolling for Large-Scale Bi-level Optimization [71.35604981129838]
従来の勾配に基づく二段階最適化アルゴリズムは、大規模アプリケーションの要求を満たすには不適である。
両レベル最適化のためのメタ勾配の偏りのない近似を実現するための$(textFG)2textU$を導入する。
$(textFG)2textU$は本質的に並列コンピューティングをサポートするように設計されており、大規模分散コンピューティングシステムを効果的に活用することができる。
論文 参考訳(メタデータ) (2024-06-20T08:21:52Z) - Matrix Completion via Nonsmooth Regularization of Fully Connected Neural Networks [7.349727826230864]
ディープニューラルネットワークのような非線形推定器を使うことで、性能の向上が達成できることが示されている。
本稿では,標準中間表現の観点から,FCNNモデルの正規化によるオーバーフィット制御を行う。
本シミュレーションは,既存の線形および非線形アルゴリズムと比較して,提案アルゴリズムの優位性を示す。
論文 参考訳(メタデータ) (2024-03-15T12:00:37Z) - A multiobjective continuation method to compute the regularization path of deep neural networks [1.3654846342364308]
数値効率を保証し、モデルの解釈性を改善し、堅牢性を向上させるため、ディープニューラルネットワーク(DNN)では、スパシティは高い特徴である。
本稿では,数百万のパラメータを持つ高次元勾配に対して,上述の目的に対するスパースフロント全体を極めて効率的な方法で実現するアルゴリズムを提案する。
正規化パスの知識がネットワークパラメトリゼーションを十分に一般化することを示す。
論文 参考訳(メタデータ) (2023-08-23T10:08:52Z) - Towards understanding neural collapse in supervised contrastive learning with the information bottleneck method [26.874007846077884]
ニューラル崩壊(Neural collapse)とは、パフォーマンスプレートを超えてトレーニングされたディープニューラルネットワークの最終層におけるアクティベーションの幾何学である。
分類問題の最適IB解に近づくと、神経崩壊は特に良い一般化をもたらすことを実証する。
論文 参考訳(メタデータ) (2023-05-19T18:41:17Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Inability of a graph neural network heuristic to outperform greedy
algorithms in solving combinatorial optimization problems like Max-Cut [0.0]
Nature Machine Intelligence 4, 367 (2022) において、Schuetzらは、様々な古典的なNPハード最適化問題を解決するためにニューラルネットワーク(GNN)を使用するスキームを提供している。
ネットワークがサンプルインスタンス上でどのようにトレーニングされているかを説明し、その結果のGNNは、広く使われているテクニックを適用して、その成功の可能性を判断する。
しかし, より綿密な検査により, このGNNの報告結果は勾配降下率よりもわずかに優れており, グリーディアルゴリズムにより性能が向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-02T20:50:33Z) - A framework for overparameterized learning [0.0]
ディープニューラルネットワークの成功に関する説明は、理論的機械学習における中心的な問題である。
本稿では,多くの一般的な問題をカバーするのに十分な,プロトタイプ学習問題からなるフレームワークを提案する。
次に、教師付き学習、変分オートエンコーダ、勾配ペナルティによるトレーニングがプロトタイプ問題に変換可能であることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:17:46Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z) - Stochastic Flows and Geometric Optimization on the Orthogonal Group [52.50121190744979]
直交群 $O(d)$ 上の幾何駆動最適化アルゴリズムの新しいクラスを示す。
提案手法は,深層,畳み込み,反復的なニューラルネットワーク,強化学習,フロー,メトリック学習など,機械学習のさまざまな分野に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-03-30T15:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。