論文の概要: Stochastic Re-weighted Gradient Descent via Distributionally Robust
Optimization
- arxiv url: http://arxiv.org/abs/2306.09222v3
- Date: Thu, 22 Feb 2024 09:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 19:01:43.677842
- Title: Stochastic Re-weighted Gradient Descent via Distributionally Robust
Optimization
- Title(参考訳): 分布ロバスト最適化による確率的再重み付け勾配降下
- Authors: Ramnath Kumar and Kushal Majmundar and Dheeraj Nagaraj and Arun Sai
Suggala
- Abstract要約: 本稿では,動的サンプル重み付けによるディープニューラルネットワークの性能向上を目的とした新しい最適化手法であるReweighted Gradient Descent(RGD)を提案する。
我々は,+0.7% (BedDomain), +1.44% (タブラル分類),+1.94% (GLUE with BERT), +1.01% (ImageNet-1K with ViT) など,多種多様なベンチマークにおけるRGDの適用性と影響を実証した。
- 参考スコア(独自算出の注目度): 15.552869983952945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Re-weighted Gradient Descent (RGD), a novel optimization technique
that improves the performance of deep neural networks through dynamic sample
importance weighting. Our method is grounded in the principles of
distributionally robust optimization (DRO) with Kullback-Leibler divergence.
RGD is simple to implement, computationally efficient, and compatible with
widely used optimizers such as SGD and Adam. We demonstrate the broad
applicability and impact of RGD by achieving state-of-the-art results on
diverse benchmarks, including improvements of +0.7% (DomainBed), +1.44%
(tabular classification), +1.94% (GLUE with BERT), and +1.01% (ImageNet-1K with
ViT).
- Abstract(参考訳): 本稿では,動的サンプル重み付けによりディープニューラルネットワークの性能を向上させる新しい最適化手法である再重み付け勾配降下法(rgd)を提案する。
提案手法は,Kulback-Leibler分散を用いた分散ロバスト最適化(DRO)の原理に基づく。
RGDは実装が簡単で、計算効率が良く、SGDやAdamのような広く使われているオプティマイザと互換性がある。
本稿では,+0.7% (DomainBed), +1.44% (タブラル分類),+1.94% (GLUE with BERT), +1.01% (ImageNet-1K with ViT) など,さまざまなベンチマークにおいて,RGDの適用性と影響を実証する。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。
ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。
我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2024-04-09T18:02:01Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Generalized Reinforcement Meta Learning for Few-Shot Optimization [3.7675996866306845]
本稿では, 汎用的かつ柔軟な強化学習(RL)に基づくメタラーニングフレームワークを提案する。
我々のフレームワークは簡単にネットワークアーキテクチャ検索に拡張できる。
論文 参考訳(メタデータ) (2020-05-04T03:21:05Z) - Weighted Aggregating Stochastic Gradient Descent for Parallel Deep
Learning [8.366415386275557]
解決策には、ニューラルネットワークモデルにおける最適化のための目的関数の修正が含まれる。
本稿では,地方労働者のパフォーマンスに基づく分散型重み付けアグリゲーション方式を提案する。
提案手法を検証するため,提案手法をいくつかの一般的なアルゴリズムと比較した。
論文 参考訳(メタデータ) (2020-04-07T23:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。