論文の概要: Using Constant Learning Rate of Two Time-Scale Update Rule for Training
Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2201.11989v1
- Date: Fri, 28 Jan 2022 08:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 00:29:29.330114
- Title: Using Constant Learning Rate of Two Time-Scale Update Rule for Training
Generative Adversarial Networks
- Title(参考訳): 2つの時間スケール更新規則の定学習率を用いた生成逆数ネットワークの訓練
- Authors: Naoki Sato and Hideaki Iiduka
- Abstract要約: 定常学習率を用いた2つの時間スケール更新規則(TTUR)の理論解析を行い,理論と実践のギャップを埋める。
定常学習率を用いたTTURでは,バッチサイズが大きくなるにつれて,定常的な局所的なナッシュ平衡を求めるために必要なステップ数が少なくなることを示す。
- 参考スコア(独自算出の注目度): 0.2741266294612775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous numerical results have shown that a two time-scale update rule
(TTUR) using constant learning rates is practically useful for training
generative adversarial networks (GANs). Meanwhile, a theoretical analysis of
TTUR to find a stationary local Nash equilibrium of a Nash equilibrium problem
with two players, a discriminator and a generator, has been given using
decaying learning rates. In this paper, we give a theoretical analysis of TTUR
using constant learning rates to bridge the gap between theory and practice. In
particular, we show that, for TTUR using constant learning rates, the number of
steps needed to find a stationary local Nash equilibrium decreases as the batch
size increases. We also provide numerical results to support our theoretical
analyzes.
- Abstract(参考訳): 従来,一定の学習率を用いた2つの時間スケール更新ルール(TTUR)が,GAN(Generative Adversarial Network)のトレーニングに有用であった。
一方、TTURの理論的解析により、2人のプレイヤー(判別器とジェネレータ)とのナッシュ平衡問題の定常局所ナッシュ平衡が崩壊する学習率を用いて与えられる。
本稿では,一定の学習率を用いてTTURの理論解析を行い,理論と実践のギャップを埋める。
特に,tturでは定常学習率を用いて,バッチサイズが増加するにつれて定常局所ナッシュ平衡を求めるために必要なステップ数が減少することを示す。
また,理論解析を支援する数値計算結果も提供する。
関連論文リスト
- Iteration and Stochastic First-order Oracle Complexities of Stochastic
Gradient Descent using Constant and Decaying Learning Rates [0.8158530638728501]
本研究では,学習速度だけでなく,バッチサイズにも依存していることを示す。
その結果, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。
論文 参考訳(メタデータ) (2024-02-23T14:24:45Z) - Small batch deep reinforcement learning [31.69289254478042]
値に基づく深層強化学習では、バッチサイズパラメータは、各勾配更新に対するサンプルへの遷移数を指定する。
本研究では,バッチサイズを小さくすることで,多くの大幅な性能向上が期待できることを示す広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-10-05T20:31:37Z) - Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。
その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T21:59:17Z) - BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。
提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文 参考訳(メタデータ) (2023-06-26T20:41:36Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Mutual Wasserstein Discrepancy Minimization for Sequential
Recommendation [82.0801585843835]
逐次リコメンデーションのためのMutual WasserStein差分最小化MSteinに基づく新しい自己教師型学習フレームワークを提案する。
また,ワッサーシュタイン離散度測定に基づく新しい学習損失を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:38:48Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Mini-Batch Learning Strategies for modeling long term temporal
dependencies: A study in environmental applications [20.979235183394994]
環境応用において、リカレントニューラルネットワーク(RNN)は、長い時間的依存関係を持つ物理変数をモデル化するためにしばしば使用される。
ミニバッチトレーニングのため、バッチ内のトレーニングセグメント(イントラバッチ)とバッチ間の時間的関係は考慮されない。
本稿では,バッチ内とバッチ間の両方の時間依存性を強制する2つの戦略を提案する。
論文 参考訳(メタデータ) (2022-10-15T17:44:21Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Automated Learning Rate Scheduler for Large-batch Training [24.20872850681828]
大規模バッチトレーニングは、ディープラーニングにおける大規模データセットとモデルを活用する上で不可欠である。
小規模なバッチトレーニングと同等のパフォーマンスを達成するために、特別に設計された学習率(LR)スケジュールを必要とすることが多い。
本稿では,ニューラルネットワークのトレーニングに有効なLR自動スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T05:23:13Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。