論文の概要: Convergence Rates for Multi-classs Logistic Regression Near Minimum
- arxiv url: http://arxiv.org/abs/2012.04576v3
- Date: Mon, 15 Mar 2021 04:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 20:42:50.347799
- Title: Convergence Rates for Multi-classs Logistic Regression Near Minimum
- Title(参考訳): 最小値近傍における多クラスロジスティック回帰の収束率
- Authors: Dwight Nwaigwe, Marek Rychlik
- Abstract要約: ニューラルネットワークの既知のクラスである多クラスロジスティック回帰をトレーニングするための収束率の構成的推定を行う。
数十年にわたる成功にもかかわらず、我々の厳格な結果は、実践と機械学習理論の間のギャップを反映して、新しいように見える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current paper we provide constructive estimation of the convergence
rate for training a known class of neural networks: the multi-class logistic
regression. Despite several decades of successful use, our rigorous results
appear new, reflective of the gap between practice and theory of machine
learning. Training a neural network is typically done via variations of the
gradient descent method. If a minimum of the loss function exists and gradient
descent is used as the training method, we provide an expression that relates
learning rate to the rate of convergence to the minimum. The method involves an
estimate of the condition number of the Hessian of the loss function. We also
discuss the existence of a minimum, as it is not automatic that a minimum
exists. One method of ensuring convergence is by assigning positive probabiity
to every class in the training dataset.
- Abstract(参考訳): 本稿では、ニューラルネットワークの既知のクラスである多クラスロジスティック回帰をトレーニングするための収束率の構成的推定について述べる。
数十年にわたる成功にもかかわらず、我々の厳格な結果は、実践と機械学習理論の間のギャップを反映して、新しいように見える。
ニューラルネットワークのトレーニングは通常、勾配降下法のバリエーションを通じて行われる。
損失関数の最小値が存在し、勾配降下が訓練方法として使用される場合、学習率と収束率を最小値に関連付ける式を提供する。
この方法は、損失関数のヘッセンの条件数の推定を含む。
また、最小が存在するのは自動ではないため、最小の存在も議論する。
収束を保証する1つの方法は、トレーニングデータセットの各クラスに正の確率を割り当てることである。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in
Polynomial Time [54.01594785269913]
本稿では, 重み劣化と凸緩和に則った2層ReLUネットワーク間の最適性ギャップについて述べる。
トレーニングデータがランダムである場合、元の問題と緩和の間の相対的な最適性ギャップは、サンプルの勾配によって境界付けられることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - An Experimental Comparison Between Temporal Difference and Residual
Gradient with Neural Network Approximation [8.166265682999482]
ニューラルネットワーク近似を用いた深部Q-ラーニングでは、ベルマン残差最小化問題を解くために勾配降下がほとんど使われない。
本研究では,時間差(TD)が勾配降下(RG)より優れていることを示すため,広範な実験を行う。
また、TDの欠落項が、RGが著しく機能する鍵となる理由であることも実証的に検証する。
論文 参考訳(メタデータ) (2022-05-25T13:37:52Z) - Combining resampling and reweighting for faithful stochastic
optimization [1.52292571922932]
損失関数が複数の項の和であるとき、一般的な方法は勾配降下である。
損失関数における複数の項のリプシッツ定数の差は、異なる最小値における異なる分散への勾配降下を引き起こすことを示す。
論文 参考訳(メタデータ) (2021-05-31T04:21:25Z) - Learning Quantized Neural Nets by Coarse Gradient Method for Non-linear
Classification [3.158346511479111]
特定の単調性を持つSTEのクラスを提案し、量子化されたアクティベーション関数を持つ2層ネットワークのトレーニングへの応用について検討する。
提案したSTEに対して,対応する粗度勾配法が大域最小値に収束することを示し,性能保証を確立する。
論文 参考訳(メタデータ) (2020-11-23T07:50:09Z) - Quantile regression with deep ReLU Networks: Estimators and minimax
rates [4.522666263036413]
線形整流ユニット(ReLU)ニューラルネットワークを用いた量子レグレッションについて検討する。
ReLUネットワークの期待平均2乗誤差の上限を導出する。
これらの厳密な境界は、量子レグレッションを持つReLUネットワークが、関数型の広いコレクションに対して最小値の速度を達成することを示唆している。
論文 参考訳(メタデータ) (2020-10-16T08:34:04Z) - RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm [50.76576946099215]
小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
論文 参考訳(メタデータ) (2020-10-12T01:59:18Z) - A Multilevel Approach to Training [0.0]
本稿では, 離散化大規模偏微分方程式の解法としてよく用いられる非線形多値法に基づく新しい学習法を提案する。
本手法は,サンプル数を減らして階層構造を構築する。
元のモデルのトレーニングは、より少ないサンプルで構築されたシュロゲートモデルを内部でトレーニングすることで強化される。
論文 参考訳(メタデータ) (2020-06-28T13:34:48Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - TRP: Trained Rank Pruning for Efficient Deep Neural Networks [69.06699632822514]
低位近似とトレーニングを交互に行うTrated Rank Pruning (TRP)を提案する。
サブ段階降下により最適化された核正則化を利用して、TRPの低位化をさらに促進する。
TRPトレーニングネットワークは本質的に低ランク構造であり、無視可能な性能損失と近似される。
論文 参考訳(メタデータ) (2020-04-30T03:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。