論文の概要: Applying Cyclical Learning Rate to Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2004.02401v1
- Date: Mon, 6 Apr 2020 04:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 05:16:26.090838
- Title: Applying Cyclical Learning Rate to Neural Machine Translation
- Title(参考訳): 繰り返し学習速度をニューラルネットワーク翻訳に適用する
- Authors: Choon Meng Lee, Jianfeng Liu, Wei Peng
- Abstract要約: 本稿では,ニューラルネットワークを用いたニューラルネットワークのニューラルネットワーク翻訳における循環学習率の適用方法を示す。
ニューラルネットワーク翻訳タスクに循環学習率を適用する際のガイドラインを確立する。
- 参考スコア(独自算出の注目度): 6.715895949288471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In training deep learning networks, the optimizer and related learning rate
are often used without much thought or with minimal tuning, even though it is
crucial in ensuring a fast convergence to a good quality minimum of the loss
function that can also generalize well on the test dataset. Drawing inspiration
from the successful application of cyclical learning rate policy for computer
vision related convolutional networks and datasets, we explore how cyclical
learning rate can be applied to train transformer-based neural networks for
neural machine translation. From our carefully designed experiments, we show
that the choice of optimizers and the associated cyclical learning rate policy
can have a significant impact on the performance. In addition, we establish
guidelines when applying cyclical learning rates to neural machine translation
tasks. Thus with our work, we hope to raise awareness of the importance of
selecting the right optimizers and the accompanying learning rate policy, at
the same time, encourage further research into easy-to-use learning rate
policies.
- Abstract(参考訳): ディープラーニングネットワークのトレーニングでは、テストデータセット上でもうまく一般化可能な損失関数の良質な最小限の収束を保証することが不可欠であるにもかかわらず、最適化器と関連する学習速度は、あまり考えずに、最小限のチューニングでしばしば使用される。
コンピュータビジョン関連畳み込みネットワークとデータセットに対する循環学習率ポリシーの応用の成功から着想を得て,ニューラルマシン翻訳のためのトランスフォーマーベースのニューラルネットワークの学習に循環学習率をいかに適用できるかを考察する。
慎重に設計した実験から,オプティマイザの選択と関連する循環学習率ポリシーが,性能に大きな影響を及ぼす可能性が示唆された。
さらに,ニューラルネットワーク翻訳タスクに循環学習率を適用する際のガイドラインを確立する。
そこで,本研究では,適切なオプティマイザの選択の重要性と学習率政策の対応について認識を深めると同時に,使い易い学習率政策のさらなる研究を促したい。
関連論文リスト
- A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron [3.069335774032178]
学習を記述するフロー方程式を導出するために,データセット処理アプローチを用いる。
学習ルール(教師付きまたは強化学習,SL/RL)と入力データ分布が知覚者の学習曲線に及ぼす影響を特徴付ける。
このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。
論文 参考訳(メタデータ) (2024-09-05T17:58:28Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Meta-Learning Strategies through Value Maximization in Neural Networks [7.285835869818669]
完全に規範的な目的に対して制御信号を効率よく最適化できる学習活動フレームワークを提案する。
本稿では,一般的なメタ学習アルゴリズムにおける近似の影響について検討する。
設定全体では、学習の早い段階でタスクの容易な側面に適用する場合、制御の取り組みが最も有益であることが分かります。
論文 参考訳(メタデータ) (2023-10-30T18:29:26Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Minimizing Control for Credit Assignment with Strong Feedback [65.59995261310529]
ディープニューラルネットワークにおける勾配に基づくクレジット割り当ての現在の手法は、無限小のフィードバック信号を必要とする。
我々は、神経活動に対する強いフィードバックと勾配に基づく学習を組み合わせることで、ニューラルネットワークの最適化に関する新たな視点を自然に導き出すことを示す。
DFCにおける強いフィードバックを用いることで、空間と時間において完全に局所的な学習規則を用いることで、前向きとフィードバックの接続を同時に学習できることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:06:21Z) - Credit Assignment in Neural Networks through Deep Feedback Control [59.14935871979047]
ディープフィードバックコントロール(Deep Feedback Control, DFC)は、フィードバックコントローラを使用して、望ましい出力ターゲットにマッチするディープニューラルネットワークを駆動し、クレジット割り当てに制御信号を使用する新しい学習方法である。
学習規則は空間と時間において完全に局所的であり、幅広い接続パターンに対するガウス・ニュートンの最適化を近似する。
さらに,DFCと皮質錐体ニューロンのマルチコンパートメントモデルと,局所的な電圧依存性のシナプス可塑性規則を関連づける。
論文 参考訳(メタデータ) (2021-06-15T05:30:17Z) - AutoLR: An Evolutionary Approach to Learning Rate Policies [2.3577368017815705]
この研究は、特定のニューラルネットワークアーキテクチャのためのラーニングレートスケジューリングを進化させるフレームワークであるAutoLRを提示する。
その結果, 確立された基準線よりも, 特定の政策を用いて実施した訓練が効率的であることが示唆された。
論文 参考訳(メタデータ) (2020-07-08T16:03:44Z) - Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。
段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。
オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文 参考訳(メタデータ) (2020-02-17T18:57:33Z) - Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep
Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。
1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。
本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文 参考訳(メタデータ) (2020-01-02T14:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。