論文の概要: Using Constant Learning Rate of Two Time-Scale Update Rule for Training
Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2201.11989v1
- Date: Fri, 28 Jan 2022 08:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 00:29:29.330114
- Title: Using Constant Learning Rate of Two Time-Scale Update Rule for Training
Generative Adversarial Networks
- Title(参考訳): 2つの時間スケール更新規則の定学習率を用いた生成逆数ネットワークの訓練
- Authors: Naoki Sato and Hideaki Iiduka
- Abstract要約: 定常学習率を用いた2つの時間スケール更新規則(TTUR)の理論解析を行い,理論と実践のギャップを埋める。
定常学習率を用いたTTURでは,バッチサイズが大きくなるにつれて,定常的な局所的なナッシュ平衡を求めるために必要なステップ数が少なくなることを示す。
- 参考スコア(独自算出の注目度): 0.2741266294612775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous numerical results have shown that a two time-scale update rule
(TTUR) using constant learning rates is practically useful for training
generative adversarial networks (GANs). Meanwhile, a theoretical analysis of
TTUR to find a stationary local Nash equilibrium of a Nash equilibrium problem
with two players, a discriminator and a generator, has been given using
decaying learning rates. In this paper, we give a theoretical analysis of TTUR
using constant learning rates to bridge the gap between theory and practice. In
particular, we show that, for TTUR using constant learning rates, the number of
steps needed to find a stationary local Nash equilibrium decreases as the batch
size increases. We also provide numerical results to support our theoretical
analyzes.
- Abstract(参考訳): 従来,一定の学習率を用いた2つの時間スケール更新ルール(TTUR)が,GAN(Generative Adversarial Network)のトレーニングに有用であった。
一方、TTURの理論的解析により、2人のプレイヤー(判別器とジェネレータ)とのナッシュ平衡問題の定常局所ナッシュ平衡が崩壊する学習率を用いて与えられる。
本稿では,一定の学習率を用いてTTURの理論解析を行い,理論と実践のギャップを埋める。
特に,tturでは定常学習率を用いて,バッチサイズが増加するにつれて定常局所ナッシュ平衡を求めるために必要なステップ数が減少することを示す。
また,理論解析を支援する数値計算結果も提供する。
関連論文リスト
- How Does Critical Batch Size Scale in Pre-training? [23.284171845875985]
クリティカルバッチサイズ(CBS)は、データ並列化がリターンを減少させるしきい値である。
C4データセット上で,CBSと自動回帰言語モデルを事前学習する手法を提案する。
この結果から,CBSはモデルサイズではなく,データサイズでスケールすることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T02:54:06Z) - Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs [24.305423716384272]
我々は,1パス勾配勾配(SGD)を有する2層ニューラルネットワークの繰り返し時間に対するバッチサイズの影響について検討した。
大規模なバッチで勾配更新を行うことで、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化できることが示される。
低次元常微分方程式(ODE)のシステムにより、トレーニングの進捗を追跡できることを示す。
論文 参考訳(メタデータ) (2024-06-04T09:44:49Z) - Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm [87.47506806135746]
一部のアプリケーションでは、エッジラーニングは、スクラッチから新しい2段階ラーニングへと焦点を移している。
本稿では,2段階のエッジ学習システムにおける共同コミュニケーションと計算資源管理の問題について考察する。
事前学習および微調整段階に対する共同資源管理の提案は,システム性能のトレードオフをうまくバランスさせることが示されている。
論文 参考訳(メタデータ) (2024-04-01T00:21:11Z) - Iteration and Stochastic First-order Oracle Complexities of Stochastic
Gradient Descent using Constant and Decaying Learning Rates [0.8158530638728501]
本研究では,学習速度だけでなく,バッチサイズにも依存していることを示す。
その結果, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。
論文 参考訳(メタデータ) (2024-02-23T14:24:45Z) - Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。
その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T21:59:17Z) - BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。
提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文 参考訳(メタデータ) (2023-06-26T20:41:36Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Mini-Batch Learning Strategies for modeling long term temporal
dependencies: A study in environmental applications [20.979235183394994]
環境応用において、リカレントニューラルネットワーク(RNN)は、長い時間的依存関係を持つ物理変数をモデル化するためにしばしば使用される。
ミニバッチトレーニングのため、バッチ内のトレーニングセグメント(イントラバッチ)とバッチ間の時間的関係は考慮されない。
本稿では,バッチ内とバッチ間の両方の時間依存性を強制する2つの戦略を提案する。
論文 参考訳(メタデータ) (2022-10-15T17:44:21Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。