論文の概要: Occam Gradient Descent
- arxiv url: http://arxiv.org/abs/2405.20194v9
- Date: Tue, 02 Sep 2025 14:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 17:24:09.022047
- Title: Occam Gradient Descent
- Title(参考訳): Occam Gradient Descent
- Authors: B. N. Kausik,
- Abstract要約: 勾配降下と等級プルーニングを結合したアルゴリズムを「Occam Gradient Descent」に提案する。
Occam Gradient Descentで訓練されたニューラルネットワークは、Random Forestsと同様に従来の勾配降下よりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning neural network models must be large enough to adapt to their prob- lem domain, while small enough to avoid overfitting training data during gradient descent. To balance these competing demands, over-provisioned deep learning models such as transformers are trained for a single epoch on large data sets, and hence inefficient with both computing resources and training data. In response to these inefficiencies, we derive a provably good algorithm that can combine any training and pruning methods to simultaneously optimize efficiency and accuracy, identifying conditions that resist overfitting and reduce model size while outper- forming the underlying training algorithm. We then use the algorithm to combine gradient descent with magnitude pruning into "Occam Gradient Descent." With respect to loss, compute and model size (a) on image classification benchmarks, linear and convolutional neural networks trained with Occam Gradient Descent outperform traditional gradient descent with or without post-train pruning; (b) on a range of tabular data classification tasks, neural networks trained with Occam Gradient Descent outperform traditional gradient descent, as well as Random Forests; (c) on natural language transformers, Occam Gradient Descent outperforms traditional gradient descent.
- Abstract(参考訳): ディープラーニングニューラルネットワークモデルは、彼らのprob-lemドメインに適応するのに十分な大きさでなければならないが、勾配降下時のトレーニングデータの過度な適合を避けるには十分である。
これらの競合する要求のバランスをとるために、トランスフォーマーのような過剰に計画されたディープラーニングモデルは、大きなデータセット上で1つのエポックのために訓練されるため、コンピューティングリソースとトレーニングデータの両方で非効率である。
これらの非効率性に対応して、トレーニング手法とプルーニング手法を組み合わせて効率と精度を同時に最適化し、基礎となるトレーニングアルゴリズムを上回りながら、過度な適合に抵抗し、モデルサイズを減少させる条件を特定できる、証明可能な優れたアルゴリズムを導出する。
次に、勾配降下と等級プルーニングを組み合わせたアルゴリズムを「Occam Gradient Descent」と呼ぶ。
損失、計算、モデルサイズについて
(a)Occam Gradient Descent を用いた線形・畳み込みニューラルネットワークによる画像分類ベンチマークでは,列車走行後プルーニングの有無にかかわらず,従来の勾配勾配よりも優れていた。
b) 表型データ分類タスクにおいて,Occam Gradient Descentで訓練されたニューラルネットワークは,従来の勾配勾配よりも優れており,またランダムフォレストも優れている。
(c) 自然言語変換器において, Occam Gradient Descent は従来の勾配勾配よりも優れる。
関連論文リスト
- Gradient Rewiring for Editable Graph Neural Network Training [84.77778876113099]
underlineGradient underlineRewiringメソッドは、textbfGREという、アンダーライン編集可能なグラフニューラルネットワークトレーニングのためのものだ。
そこで本稿では,textbfGRE という名前のアンダーライン編集可能なグラフニューラルネットワークトレーニングのための,シンプルで効果的なアンダーライングラディエントアンダーラインリスイッチ法を提案する。
論文 参考訳(メタデータ) (2024-10-21T01:01:50Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Scaling Private Deep Learning with Low-Rank and Sparse Gradients [5.14780936727027]
ニューラルネットワークの低ランクかつスパースな構造を利用して、勾配更新の次元を小さくするフレームワークを提案する。
勾配を拡大するために新しい戦略が利用され、低次元でノイズの少ない更新をもたらす。
自然言語処理とコンピュータビジョンタスクの実証評価により,本手法が他の最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-06T14:09:47Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。