Fugu-MT 論文翻訳(概要): Intelligent gradient amplification for deep neural networks

論文の概要: Intelligent gradient amplification for deep neural networks

arxiv url: http://arxiv.org/abs/2305.18445v1
Date: Mon, 29 May 2023 03:38:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 20:52:41.927905
Title: Intelligent gradient amplification for deep neural networks
Title（参考訳）: ディープニューラルネットワークのためのインテリジェント勾配増幅
Authors: Sunitha Basodi, Krishna Pusuluri, Xueli Xiao, Yi Pan
Abstract要約: 特に、ディープラーニングモデルは、モデルの深さが増加するにつれて、より大きなトレーニング時間を必要とします。いくつかの解は独立してこれらの問題に対処するが、統合された解を特定するための最小限の努力があった。本研究では,定式化手法を用いて,ディープラーニングモデルのどの層を勾配増幅に適用するかをインテリジェントに決定する。
参考スコア（独自算出の注目度）: 2.610003394404622
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Deep learning models offer superior performance compared to other machine learning techniques for a variety of tasks and domains, but pose their own challenges. In particular, deep learning models require larger training times as the depth of a model increases, and suffer from vanishing gradients. Several solutions address these problems independently, but there have been minimal efforts to identify an integrated solution that improves the performance of a model by addressing vanishing gradients, as well as accelerates the training process to achieve higher performance at larger learning rates. In this work, we intelligently determine which layers of a deep learning model to apply gradient amplification to, using a formulated approach that analyzes gradient fluctuations of layers during training. Detailed experiments are performed for simpler and deeper neural networks using two different intelligent measures and two different thresholds that determine the amplification layers, and a training strategy where gradients are amplified only during certain epochs. Results show that our amplification offers better performance compared to the original models, and achieves accuracy improvement of around 2.5% on CIFAR- 10 and around 4.5% on CIFAR-100 datasets, even when the models are trained with higher learning rates.
Abstract（参考訳）: ディープラーニングモデルは、さまざまなタスクやドメインにおいて、他の機械学習技術よりも優れたパフォーマンスを提供するが、独自の課題を提起する。特にディープラーニングモデルは、モデルの深さが増加するにつれてトレーニング時間を大きくし、勾配の消失に悩まされる。いくつかの解は独立してこれらの問題に対処するが、消失する勾配に対処することでモデルの性能を改善する統合ソリューションを同定する努力は最小限に抑えられ、学習速度が大きくなるとより高い性能を達成するためのトレーニングプロセスを加速する。そこで本研究では,学習中にレイヤの勾配変動を分析する定式化手法を用いて,深層学習モデルのどの層に勾配増幅を適用するかをインテリジェントに決定する。より詳細な実験は、2つの異なる知的測度と2つの異なるしきい値を使ってよりシンプルで深いニューラルネットワークに対して行われ、増幅層を決定する。その結果,従来のモデルと比較して精度が向上し,CIFAR-100データセットでは約2.5%,CIFAR-100データセットでは約4.5%の精度向上が達成された。

関連論文リスト

Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
Fast and Slow Gradient Approximation for Binary Neural Network Optimization [11.064044986709733]
ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
論文参考訳（メタデータ） (2024-12-16T13:48:40Z)
Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。 UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。 CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文参考訳（メタデータ） (2024-11-03T02:38:43Z)
Accelerating Deep Learning with Fixed Time Budget [2.190627491782159]
本稿では,一定時間内に任意のディープラーニングモデルを学習するための効果的な手法を提案する。提案手法はコンピュータビジョンにおける分類タスクと回帰タスクの両方において広範囲に評価される。
論文参考訳（メタデータ） (2024-10-03T21:18:04Z)
ZNorm: Z-Score Gradient Normalization Accelerating Skip-Connected Network Training without Architectural Modification [0.0]
Z-Score Normalization for Gradient Descent (ZNorm)は、ネットワークアーキテクチャを変更することなく勾配のみを調整し、トレーニングを加速し、モデル性能を向上させる革新的な技術である。 ZNormは、全体的な勾配を正規化し、レイヤ間の一貫性のある勾配スケーリングを提供し、グラデーションの消滅と爆発のリスクを効果的に低減し、優れたパフォーマンスを達成する。医用画像の応用において、ZNormは腫瘍の予測とセグメンテーションの精度を大幅に向上させ、その実用性を強調している。
論文参考訳（メタデータ） (2024-08-02T12:04:19Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
MetaDiff: Meta-Learning with Conditional Diffusion for Few-Shot Learning [19.57633448737394]
グラディエントベースのメタ学習アプローチは、新しいタスクの学習方法を学ぶことで、この課題に効果的に対処する。本稿では,モデル重みの最適化プロセスを効果的にモデル化するメタディフという,タスク条件拡散に基づくメタラーニングを提案する。実験結果から,メタディフは,最先端の勾配に基づくメタラーニングファミリよりも,数ショットの学習タスクで優れていたことが判明した。
論文参考訳（メタデータ） (2023-07-31T06:19:48Z)
Robust Learning with Progressive Data Expansion Against Spurious Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-08T05:44:06Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Gradient Amplification: An efficient way to train deep neural networks [1.6542034477245091]
本研究では,ディープラーニングモデルの学習における勾配増幅手法を提案する。また,学習率の異なる複数のエポックにまたがる勾配増幅を可能または無効にするためのトレーニング戦略も開発している。
論文参考訳（メタデータ） (2020-06-16T20:30:55Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2020-04-13T10:47:02Z)
Gradients as Features for Deep Representation Learning [26.996104074384263]
本稿では,事前学習したディープ・ネットワークを様々なタスクに適応させることによって,ディープ・表現学習の課題に対処する。我々の重要な革新は、事前訓練されたネットワークの勾配と活性化の両方を組み込んだ線形モデルの設計である。我々は,実際の勾配を計算せずに,モデルのトレーニングと推論を効率的に行うアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-04-12T02:57:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。