Fugu-MT 論文翻訳(概要): Occam Gradient Descent

論文の概要: Occam Gradient Descent

arxiv url: http://arxiv.org/abs/2405.20194v1
Date: Thu, 30 May 2024 15:58:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 13:29:24.544283
Title: Occam Gradient Descent
Title（参考訳）: Occam Gradient Descent
Authors: B. N. Kausik,
Abstract要約: トランスフォーマーのようなオーバープロビジョンされたディープラーニングモデルは、大きなデータセット上で単一のエポックのために訓練されるため、コンピューティングリソースとトレーニングデータの両方で非効率である。一般化誤差を最小化するためにモデルサイズを適応的に減少させるアルゴリズムであるOccam Gradient Descentを学習理論から導出する。提案アルゴリズムは, ニューラルネットワークの重み空間とトポロジカルサイズを同時に降下させ, 従来の勾配勾配よりも精度, 計算, モデル圧縮に優れる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning neural network models must be large enough to adapt to their problem domain, while small enough to avoid overfitting training data during gradient descent. To balance these competing demands, overprovisioned deep learning models such as transformers are trained for a single epoch on large data sets, and hence inefficient with both computing resources and training data. In response to these inefficiencies, we exploit learning theory to derive Occam Gradient Descent, an algorithm that interleaves adaptive reduction of model size to minimize generalization error, with gradient descent on model weights to minimize fitting error. In contrast, traditional gradient descent greedily minimizes fitting error without regard to generalization error. Our algorithm simultaneously descends the space of weights and topological size of any neural network without modification, and is effective in our experiments in outperforming traditional gradient descent with or without post-train pruning in accuracy, compute and model compression.
Abstract（参考訳）: ディープラーニングニューラルネットワークモデルは、問題領域に適応するのに十分な大きさでなければならないが、勾配降下時のトレーニングデータの過度な適合を回避するには十分である。これらの競合する要求のバランスをとるために、トランスフォーマーのような過剰な予測されたディープラーニングモデルは、大きなデータセット上で1つのエポックのために訓練されるため、コンピューティングリソースとトレーニングデータの両方で非効率である。これらの非効率性に対応するために、我々は学習理論を利用してOccam Gradient Descentを導出する。Occam Gradient Descentはモデルサイズを適応的に減少させ、一般化誤差を最小限に抑えるアルゴリズムである。対照的に、従来の勾配降下は、一般化誤差によらず、嵌合誤差を極度に最小化する。提案アルゴリズムは, ニューラルネットワークの重み空間とトポロジカルサイズを同時に下降させるとともに, 従来の勾配勾配よりも精度, 計算, モデル圧縮に優れる。

関連論文リスト

Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
Fast and Slow Gradient Approximation for Binary Neural Network Optimization [11.064044986709733]
ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
論文参考訳（メタデータ） (2024-12-16T13:48:40Z)
Gradient Rewiring for Editable Graph Neural Network Training [84.77778876113099]
underlineGradient underlineRewiringメソッドは、textbfGREという、アンダーライン編集可能なグラフニューラルネットワークトレーニングのためのものだ。そこで本稿では,textbfGRE という名前のアンダーライン編集可能なグラフニューラルネットワークトレーニングのための,シンプルで効果的なアンダーライングラディエントアンダーラインリスイッチ法を提案する。
論文参考訳（メタデータ） (2024-10-21T01:01:50Z)
Stochastic Gradient Sampling for Enhancing Neural Networks Training [0.0]
我々はAdamアルゴリズムの新たな拡張であるStochGradAdamを紹介し、勾配サンプリング手法を取り入れた。 StochGradAdamは、イテレーション毎の勾配更新が少ない場合でも、Adamに匹敵する、あるいは優れたパフォーマンスを実現している。その結果,このアプローチは大規模モデルやデータセットに特に有効であることが示唆された。
論文参考訳（メタデータ） (2023-10-25T22:45:31Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Scaling Private Deep Learning with Low-Rank and Sparse Gradients [5.14780936727027]
ニューラルネットワークの低ランクかつスパースな構造を利用して、勾配更新の次元を小さくするフレームワークを提案する。勾配を拡大するために新しい戦略が利用され、低次元でノイズの少ない更新をもたらす。自然言語処理とコンピュータビジョンタスクの実証評価により,本手法が他の最先端のベースラインよりも優れていることが示された。
論文参考訳（メタデータ） (2022-07-06T14:09:47Z)
Benign Overfitting without Linearity: Neural Network Classifiers Trained by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文参考訳（メタデータ） (2022-02-11T23:04:00Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
Convergence rates for gradient descent in the training of overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文参考訳（メタデータ） (2021-02-23T18:17:47Z)
A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文参考訳（メタデータ） (2020-10-27T17:56:14Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。