論文の概要: Multiplicative update rules for accelerating deep learning training and
increasing robustness
- arxiv url: http://arxiv.org/abs/2307.07189v1
- Date: Fri, 14 Jul 2023 06:44:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 14:41:36.648338
- Title: Multiplicative update rules for accelerating deep learning training and
increasing robustness
- Title(参考訳): 深層学習の促進と堅牢性向上のための乗算的更新規則
- Authors: Manos Kirtas, Nikolaos Passalis, Anastasios Tefas
- Abstract要約: 我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
- 参考スコア(独自算出の注目度): 69.90473612073767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even nowadays, where Deep Learning (DL) has achieved state-of-the-art
performance in a wide range of research domains, accelerating training and
building robust DL models remains a challenging task. To this end, generations
of researchers have pursued to develop robust methods for training DL
architectures that can be less sensitive to weight distributions, model
architectures and loss landscapes. However, such methods are limited to
adaptive learning rate optimizers, initialization schemes, and clipping
gradients without investigating the fundamental rule of parameters update.
Although multiplicative updates have contributed significantly to the early
development of machine learning and hold strong theoretical claims, to best of
our knowledge, this is the first work that investigate them in context of DL
training acceleration and robustness. In this work, we propose an optimization
framework that fits to a wide range of optimization algorithms and enables one
to apply alternative update rules. To this end, we propose a novel
multiplicative update rule and we extend their capabilities by combining it
with a traditional additive update term, under a novel hybrid update method. We
claim that the proposed framework accelerates training, while leading to more
robust models in contrast to traditionally used additive update rule and we
experimentally demonstrate their effectiveness in a wide range of task and
optimization methods. Such tasks ranging from convex and non-convex
optimization to difficult image classification benchmarks applying a wide range
of traditionally used optimization methods and Deep Neural Network (DNN)
architectures.
- Abstract(参考訳): 現在でも、Deep Learning (DL)は、幅広い研究領域において最先端のパフォーマンスを達成しており、トレーニングの加速と堅牢なDLモデルの構築は難しい課題である。
この目的のために、数世代にわたる研究者が、重量分布、モデルアーキテクチャ、損失景観に敏感でないDLアーキテクチャをトレーニングするための堅牢な方法の開発を試みている。
しかし、これらの手法は、パラメータ更新の基本ルールを調査することなく、適応学習率オプティマイザ、初期化スキーム、クリッピング勾配に制限される。
乗算的更新は、機械学習の初期の発展に大きく貢献し、強力な理論的主張を持っているが、私たちの知識を最大限活用するために、DLトレーニングアクセラレーションとロバストネスの文脈でそれらを調査する最初の研究である。
本研究では,幅広い最適化アルゴリズムに適合し,代替の更新ルールを適用することができる最適化フレームワークを提案する。
この目的のために,新しい乗法アップデートルールを提案し,新しいハイブリッド更新法の下で,従来の増分更新項と組み合わせることでその能力を拡張する。
提案手法は,従来の追加更新ルールとは対照的に,より頑健なモデルを導いながら,学習を加速すると主張し,幅広いタスクおよび最適化手法でその効果を実験的に実証した。
凸最適化や非凸最適化から、従来の最適化手法やディープニューラルネットワーク(Deep Neural Network, DNN)アーキテクチャを適用した難しい画像分類ベンチマークまで、様々なタスクがある。
関連論文リスト
- Narrowing the Focus: Learned Optimizers for Pretrained Models [24.685918556547055]
本稿では,一連の基本作業タスクによって提供される更新方向の階層固有の線形結合を学習する手法を提案する。
画像上で評価すると、これはAdamのような従来の既成の方法と既存の一般的な学習の両方で著しく優れています。
論文 参考訳(メタデータ) (2024-08-17T23:55:19Z) - Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
本稿では,ニューラルネットワークの初期化手法を提案する。
この手法は,Li(2023)が提案する出現対策の概念にインスパイアされ,より高い出現値を達成するために,レイヤワイド・ウェイト・スケーリング・ファクタを調整した。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-26T18:56:47Z) - Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Neural Network Training Techniques Regularize Optimization Trajectory:
An Empirical Study [17.9739959287894]
現代のディープニューラルネットワーク(DNN)トレーニングでは、非線形アクティベーション関数、バッチ正規化、スキップ接続など、さまざまなトレーニングテクニックが使用されている。
モデル更新方向を軌道方向と整合させる一定の規則性原理を一貫して従っていることを示す。
経験的に、トレーニング手法を適用したDNNトレーニングは、高速収束を実現し、大きな正規化パラメータを持つ正則性原理に従うことが分かり、モデル更新が軌道に適切に整合していることが示唆された。
論文 参考訳(メタデータ) (2020-11-13T00:26:43Z) - A Differential Game Theoretic Neural Optimizer for Training Residual
Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。
得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文 参考訳(メタデータ) (2020-07-17T10:19:17Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Improved Adversarial Training via Learned Optimizer [101.38877975769198]
対戦型トレーニングモデルの堅牢性を改善するための枠組みを提案する。
共学習のパラメータモデルの重み付けにより、提案するフレームワークは、更新方向に対するロバスト性とステップの適応性を一貫して改善する。
論文 参考訳(メタデータ) (2020-04-25T20:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。