論文の概要: Stochastic Re-weighted Gradient Descent via Distributionally Robust
Optimization
- arxiv url: http://arxiv.org/abs/2306.09222v2
- Date: Wed, 4 Oct 2023 14:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 21:39:16.610766
- Title: Stochastic Re-weighted Gradient Descent via Distributionally Robust
Optimization
- Title(参考訳): 分布ロバスト最適化による確率的再重み付け勾配降下
- Authors: Ramnath Kumar and Kushal Majmundar and Dheeraj Nagaraj and Arun Sai
Suggala
- Abstract要約: 我々は、ディープニューラルネットワークの性能を高めるために、再重み付け勾配降下法を開発した。
提案手法は, 一般化保証を改良したモデルとして知られてきたf-divergencesによる分布的ロバストな最適化に着想を得たものである。
- 参考スコア(独自算出の注目度): 15.552869983952945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a re-weighted gradient descent technique for boosting the
performance of deep neural networks, which involves importance weighting of
data points during each optimization step. Our approach is inspired by
distributionally robust optimization with f-divergences, which has been known
to result in models with improved generalization guarantees. Our re-weighting
scheme is simple, computationally efficient, and can be combined with many
popular optimization algorithms such as SGD and Adam. Empirically, we
demonstrate the superiority of our approach on various tasks, including
supervised learning, domain adaptation. Notably, we obtain improvements of
+0.7% and +1.44% over SOTA on DomainBed and Tabular classification benchmarks,
respectively. Moreover, our algorithm boosts the performance of BERT on GLUE
benchmarks by +1.94%, and ViT on ImageNet-1K by +1.01%. These results
demonstrate the effectiveness of the proposed approach, indicating its
potential for improving performance in diverse domains.
- Abstract(参考訳): 我々は,最適化ステップ毎にデータポイントの重み付けを重要視する深層ニューラルネットワークの性能を向上させるために,重み付け勾配降下法を開発した。
提案手法は, 一般化保証を改良したモデルとして知られてきたf-divergencesによる分布的ロバストな最適化に着想を得たものである。
我々の再重み付け方式は単純で計算効率が高く、SGDやAdamといった多くの最適化アルゴリズムと組み合わせることができる。
実験では,教師付き学習やドメイン適応など,様々なタスクにおけるアプローチの優位性を実証する。
特に,DomainBedとTabularの分類ベンチマークでは,SOTAよりも+0.7%,+1.44%向上した。
さらに,本アルゴリズムは,GLUEベンチマーク上でのBERTを+1.94%,ImageNet-1K上でのViTを+1.01%向上させる。
これらの結果は,提案手法の有効性を示し,多様な領域における性能向上の可能性を示した。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。
ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。
我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2024-04-09T18:02:01Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Generalized Reinforcement Meta Learning for Few-Shot Optimization [3.7675996866306845]
本稿では, 汎用的かつ柔軟な強化学習(RL)に基づくメタラーニングフレームワークを提案する。
我々のフレームワークは簡単にネットワークアーキテクチャ検索に拡張できる。
論文 参考訳(メタデータ) (2020-05-04T03:21:05Z) - Weighted Aggregating Stochastic Gradient Descent for Parallel Deep
Learning [8.366415386275557]
解決策には、ニューラルネットワークモデルにおける最適化のための目的関数の修正が含まれる。
本稿では,地方労働者のパフォーマンスに基づく分散型重み付けアグリゲーション方式を提案する。
提案手法を検証するため,提案手法をいくつかの一般的なアルゴリズムと比較した。
論文 参考訳(メタデータ) (2020-04-07T23:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。