論文の概要: RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm
- arxiv url: http://arxiv.org/abs/2010.05397v3
- Date: Thu, 15 Oct 2020 16:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:16:30.161779
- Title: RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm
- Title(参考訳): フランクウルフアルゴリズムによる局所最適軌道のRNN訓練
- Authors: Yun Yue, Ming Li, Venkatesh Saligrama, Ziming Zhang
- Abstract要約: 小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
- 参考スコア(独自算出の注目度): 50.76576946099215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel and efficient training method for RNNs by iteratively
seeking a local minima on the loss surface within a small region, and leverage
this directional vector for the update, in an outer-loop. We propose to utilize
the Frank-Wolfe (FW) algorithm in this context. Although, FW implicitly
involves normalized gradients, which can lead to a slow convergence rate, we
develop a novel RNN training method that, surprisingly, even with the
additional cost, the overall training cost is empirically observed to be lower
than back-propagation. Our method leads to a new Frank-Wolfe method, that is in
essence an SGD algorithm with a restart scheme. We prove that under certain
conditions our algorithm has a sublinear convergence rate of $O(1/\epsilon)$
for $\epsilon$ error. We then conduct empirical experiments on several
benchmark datasets including those that exhibit long-term dependencies, and
show significant performance improvement. We also experiment with deep RNN
architectures and show efficient training performance. Finally, we demonstrate
that our training method is robust to noisy data.
- Abstract(参考訳): 本稿では,小さな領域内の損失面に局所最小値を求めることにより,RNNの新規かつ効率的なトレーニング手法を提案し,その方向ベクトルを外ループで活用する。
この文脈でフランク・ウルフ (FW) アルゴリズムを活用することを提案する。
FWは正規化勾配を暗黙的に含み、収束速度が遅くなる可能性があるが、驚くべきことに、追加コストにもかかわらず、全体的なトレーニングコストがバックプロパゲーションよりも低いと実証的に観察される新しいRNNトレーニング手法を開発した。
提案手法は,再起動方式のSGDアルゴリズムであるFrank-Wolfe法に導かれる。
ある条件下では、我々のアルゴリズムは$O(1/\epsilon)$ for $\epsilon$ error という部分線型収束率を持つ。
次に、長期依存を示すものを含むいくつかのベンチマークデータセットで実証実験を行い、大幅な性能改善を示す。
また、深層RNNアーキテクチャを実験し、効率的なトレーニング性能を示す。
最後に、トレーニング手法がノイズの多いデータに対して堅牢であることを示す。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Using Taylor-Approximated Gradients to Improve the Frank-Wolfe Method
for Empirical Risk Minimization [1.4504054468850665]
In Empirical Minimization -- Minimization -- We present a novel computer step-size approach to we have compute guarantees。
提案手法は実世界のバイナリデータセットに非常に重要な問題を示す。
また、計算の保証を得るための新しい適応的なステップサイズアプローチを提案する。
論文 参考訳(メタデータ) (2022-08-30T00:08:37Z) - DNNR: Differential Nearest Neighbors Regression [8.667550264279166]
K-nearest neighbors(KNN)は、機械学習において最も早く、最も確立されたアルゴリズムの1つである。
回帰タスクでは、KNNは、多くの課題を引き起こす地区内のターゲットを平均化する。
両問題に同時に対処するDNNR(differial Nearest Neighbors Regression)を提案する。
論文 参考訳(メタデータ) (2022-05-17T15:22:53Z) - AdaSTE: An Adaptive Straight-Through Estimator to Train Binary Neural
Networks [34.263013539187355]
重み付きディープニューラルネットワーク(DNN)を学習するための新しいアルゴリズムを提案する。
実験により,本アルゴリズムは既存手法と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2021-12-06T09:12:15Z) - Efficient Neural Network Training via Forward and Backward Propagation
Sparsification [26.301103403328312]
本研究では, 完全スパース前方・後方パスを用いた効率的なスパーストレーニング手法を提案する。
私たちのアルゴリズムは、トレーニングプロセスを最大で桁違いに高速化する上で、はるかに効果的です。
論文 参考訳(メタデータ) (2021-11-10T13:49:47Z) - Regularized Frank-Wolfe for Dense CRFs: Generalizing Mean Field and
Beyond [19.544213396776268]
我々は,高次条件場に対する汎用的で効果的なCNNベースライン推論である正規化Frank-Wolfeを導入する。
新しいアルゴリズム、新しいアルゴリズム、新しいデータセット、強力なニューラルネットワークの大幅な改善が示されています。
論文 参考訳(メタデータ) (2021-10-27T20:44:47Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。