論文の概要: Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size
- arxiv url: http://arxiv.org/abs/2211.11092v1
- Date: Sun, 20 Nov 2022 21:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:08:32.130938
- Title: Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size
- Title(参考訳): オフラインRLのためのQ-Ensemble: アンサンブルをスケールしない、バッチサイズをスケールする
- Authors: Alexander Nikulin, Vladislav Kurenkov, Denis Tarasov, Dmitry Akimov,
Sergey Kolesnikov
- Abstract要約: 学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
- 参考スコア(独自算出の注目度): 58.762959061522736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large neural networks is known to be time-consuming, with the
learning duration taking days or even weeks. To address this problem,
large-batch optimization was introduced. This approach demonstrated that
scaling mini-batch sizes with appropriate learning rate adjustments can speed
up the training process by orders of magnitude. While long training time was
not typically a major issue for model-free deep offline RL algorithms, recently
introduced Q-ensemble methods achieving state-of-the-art performance made this
issue more relevant, notably extending the training duration. In this work, we
demonstrate how this class of methods can benefit from large-batch
optimization, which is commonly overlooked by the deep offline RL community. We
show that scaling the mini-batch size and naively adjusting the learning rate
allows for (1) a reduced size of the Q-ensemble, (2) stronger penalization of
out-of-distribution actions, and (3) improved convergence time, effectively
shortening training duration by 3-4x times on average.
- Abstract(参考訳): 大規模ニューラルネットワークのトレーニングには時間がかかることが知られており、学習期間は数日から数週間かかる。
この問題に対処するため,大規模バッチ最適化を導入した。
このアプローチは、適切な学習率調整によるミニバッチサイズのスケーリングによって、トレーニングプロセスを桁違いに高速化できることを実証した。
モデルのないディープオフラインRLアルゴリズムでは、長いトレーニング時間が大きな問題ではなかったが、最近、最先端のパフォーマンスを達成するQアンサンブルメソッドを導入し、特にトレーニング期間を延長した。
本研究では,この手法が大規模バッチ最適化の恩恵を受けることを実証する。
その結果,ミニバッチサイズをスケールし,学習率を無意識に調整することで,(1)q-ensembleのサイズを小さくし,(2)分散動作のより強いペナライゼーションを可能にし,(3)収束時間を改善し,平均3~4倍のトレーニング時間を効果的に短縮できることがわかった。
関連論文リスト
- Lancet: Accelerating Mixture-of-Experts Training via Whole Graph Computation-Communication Overlapping [14.435637320909663]
MoEテクニックは、DNNモデルパラメータのサイズを拡大する上で重要な役割を果たす。
既存の手法は、全てを専門家の計算でオーバーラップすることでこの問題を緩和しようとする。
本研究では,より広いトレーニンググラフレベルでのオーバーラップを考慮し,この課題の範囲を広げる。
コンパイラをベースとした最適化により,MoEモデルトレーニングを自動的に強化するシステムであるLancetにこれらの手法を実装した。
論文 参考訳(メタデータ) (2024-04-30T10:17:21Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Curriculum Learning: A Regularization Method for Efficient and Stable
Billion-Scale GPT Model Pre-Training [18.640076155697415]
本稿では,自己回帰モデルによる事前学習の収束速度の向上を支援するカリキュラム学習に基づく手法を提案する。
評価の結果,カリキュラム学習により,バッチサイズが8倍,学習速度が4倍のGPT-2モデルを学習できることがわかった。
論文 参考訳(メタデータ) (2021-08-13T06:32:53Z) - Automated Learning Rate Scheduler for Large-batch Training [24.20872850681828]
大規模バッチトレーニングは、ディープラーニングにおける大規模データセットとモデルを活用する上で不可欠である。
小規模なバッチトレーニングと同等のパフォーマンスを達成するために、特別に設計された学習率(LR)スケジュールを必要とすることが多い。
本稿では,ニューラルネットワークのトレーニングに有効なLR自動スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T05:23:13Z) - Concurrent Adversarial Learning for Large-Batch Training [83.55868483681748]
逆学習は、決定面を滑らかにし、平坦な領域に偏りを付けるための自然な選択である。
本稿では,安定パラメータを用いて,逐次勾配計算を分離するConcurrent Adversarial Learning(ConAdv)手法を提案する。
これは、ResNet-50トレーニングバッチサイズを96Kにスケールする最初の作業である。
論文 参考訳(メタデータ) (2021-06-01T04:26:02Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes [9.213729275749452]
そこで本研究では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。
192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。
論文 参考訳(メタデータ) (2020-06-24T05:00:41Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。