Fugu-MT 論文翻訳(概要): Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization

論文の概要: Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization

arxiv url: http://arxiv.org/abs/2306.09222v4
Date: Mon, 26 Feb 2024 06:22:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 19:39:51.390403
Title: Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization
Title（参考訳）: 分布ロバスト最適化による確率的再重み付け勾配降下
Authors: Ramnath Kumar and Kushal Majmundar and Dheeraj Nagaraj and Arun Sai Suggala
Abstract要約: 本稿では,動的サンプル重み付けによるディープニューラルネットワークの性能向上を目的とした新しい最適化手法であるReweighted Gradient Descent(RGD)を提案する。我々は,+0.7% (BedDomain), +1.44% (タブラル分類),+1.94% (GLUE with BERT), +1.01% (ImageNet-1K with ViT) など,多種多様なベンチマークにおけるRGDの適用性と影響を実証した。
参考スコア（独自算出の注目度）: 15.552869983952945
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Re-weighted Gradient Descent (RGD), a novel optimization technique that improves the performance of deep neural networks through dynamic sample importance weighting. Our method is grounded in the principles of distributionally robust optimization (DRO) with Kullback-Leibler divergence. RGD is simple to implement, computationally efficient, and compatible with widely used optimizers such as SGD and Adam. We demonstrate the broad applicability and impact of RGD by achieving state-of-the-art results on diverse benchmarks, including improvements of +0.7% (DomainBed), +1.44% (tabular classification), +1.94% (GLUE with BERT), and +1.01% (ImageNet-1K with ViT).
Abstract（参考訳）: 本稿では,動的サンプル重み付けによりディープニューラルネットワークの性能を向上させる新しい最適化手法である再重み付け勾配降下法(rgd)を提案する。提案手法は,Kulback-Leibler分散を用いた分散ロバスト最適化(DRO)の原理に基づく。 RGDは実装が簡単で、計算効率が良く、SGDやAdamのような広く使われているオプティマイザと互換性がある。本稿では,+0.7% (DomainBed), +1.44% (タブラル分類),+1.94% (GLUE with BERT), +1.01% (ImageNet-1K with ViT) など,さまざまなベンチマークにおいて,RGDの適用性と影響を実証する。

関連論文リスト

Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文参考訳（メタデータ） (2025-05-08T17:58:45Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。 ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文参考訳（メタデータ） (2024-08-07T03:20:46Z)
Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文参考訳（メタデータ） (2024-04-09T18:02:01Z)
Beyond Single-Model Views for Deep Learning: Optimization versus Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文参考訳（メタデータ） (2024-03-01T14:55:22Z)
Efficient Joint Optimization of Layer-Adaptive Weight Pruning in Deep Neural Networks [48.089501687522954]
ディープニューラルネットワーク(DNN)のための新しい層適応型重み決定手法を提案する。我々のアプローチは、レイヤ適応型プルーニングスキームを設計するためのすべてのレイヤの集団的影響を考慮に入れている。我々の実験は、ImageNetとCIFAR-10データセット上の既存の手法よりも、我々のアプローチの方が優れていることを示す。
論文参考訳（メタデータ） (2023-08-21T03:22:47Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文参考訳（メタデータ） (2022-04-08T20:46:16Z)
ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文参考訳（メタデータ） (2021-10-10T09:35:15Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Generalized Reinforcement Meta Learning for Few-Shot Optimization [3.7675996866306845]
本稿では, 汎用的かつ柔軟な強化学習(RL)に基づくメタラーニングフレームワークを提案する。我々のフレームワークは簡単にネットワークアーキテクチャ検索に拡張できる。
論文参考訳（メタデータ） (2020-05-04T03:21:05Z)
Weighted Aggregating Stochastic Gradient Descent for Parallel Deep Learning [8.366415386275557]
解決策には、ニューラルネットワークモデルにおける最適化のための目的関数の修正が含まれる。本稿では,地方労働者のパフォーマンスに基づく分散型重み付けアグリゲーション方式を提案する。提案手法を検証するため,提案手法をいくつかの一般的なアルゴリズムと比較した。
論文参考訳（メタデータ） (2020-04-07T23:38:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。