Fugu-MT 論文翻訳(概要): Closing the gap between SVRG and TD-SVRG with Gradient Splitting

論文の概要: Closing the gap between SVRG and TD-SVRG with Gradient Splitting

arxiv url: http://arxiv.org/abs/2211.16237v1
Date: Tue, 29 Nov 2022 14:21:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-30 16:56:46.968394
Title: Closing the gap between SVRG and TD-SVRG with Gradient Splitting
Title（参考訳）: 勾配分割によるSVRGとTD-SVRGのギャップの解消
Authors: Arsenii Mustafin, Alex Olshevsky, Ioannis Ch. Paschalidis
Abstract要約: 時間差(TD)学習は、強化学習における政策評価のための単純なアルゴリズムである。本研究では,SVRGの凸設定で利用可能な収束値と同一の1/8の学習速度で有界な幾何収束を証明した。
参考スコア（独自算出の注目度）: 16.6833745997519
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Temporal difference (TD) learning is a simple algorithm for policy evaluation in reinforcement learning. The performance of TD learning is affected by high variance and it can be naturally enhanced with variance reduction techniques, such as the Stochastic Variance Reduced Gradient (SVRG) method. Recently, multiple works have sought to fuse TD learning with SVRG to obtain a policy evaluation method with a geometric rate of convergence. However, the resulting convergence rate is significantly weaker than what is achieved by SVRG in the setting of convex optimization. In this work we utilize a recent interpretation of TD-learning as the splitting of the gradient of an appropriately chosen function, thus simplifying the algorithm and fusing TD with SVRG. We prove a geometric convergence bound with predetermined learning rate of 1/8, that is identical to the convergence bound available for SVRG in the convex setting.
Abstract（参考訳）: 時間差学習は、強化学習における政策評価のための単純なアルゴリズムである。 TD学習の性能は高分散の影響を受けており、SVRG(Stochastic Variance Reduced Gradient)法のような分散低減技術によって自然に向上することができる。近年,SVRGによるTD学習を融合させ,幾何学的収束率を持つ政策評価手法の確立が試みられている。しかし、収束速度は凸最適化の設定においてSVRGが達成したものよりも著しく弱い。本研究では,TD-ラーニングの最近の解釈を,適切に選択された関数の勾配の分割として利用し,アルゴリズムの簡素化とSVRGとの融合を図る。本研究では,SVRGの凸設定で利用可能な収束値と同一の1/8の学習速度で有界な幾何収束を証明した。

関連論文リスト

TRSVR: An Adaptive Stochastic Trust-Region Method with Variance Reduction [17.083793956698994]
本稿では,分散領域(SVRG)を組み込んで収束を加速する非拘束的非還元最適化の信頼手法を提案する。提案アルゴリズムは勾配情報のみに依存し,関数値の評価を必要としない。
論文参考訳（メタデータ） (2026-01-21T04:41:57Z)
A Coefficient Makes SVRG Effective [55.104068027239656]
SVRG (Variance Reduced Gradient) は理論的に説得力のある最適化手法である。本研究では,実世界のニューラルネットワークを最適化するSVRGの可能性を示す。分析の結果,より深いネットワークでは,SVRGの分散低減項の強度は,トレーニングが進むにつれて小さくなり,低下することが明らかとなった。
論文参考訳（メタデータ） (2023-11-09T18:47:44Z)
Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文参考訳（メタデータ） (2023-06-29T01:20:44Z)
Ordering for Non-Replacement SGD [7.11967773739707]
我々は,アルゴリズムの非置換形式に対する収束率を改善する順序付けを求める。我々は,強い凸関数と凸関数のステップサイズを一定かつ小さくするための最適順序付けを開発する。さらに、注文とミニバッチを組み合わせることで、より複雑なニューラルネットワークにも適用できます。
論文参考訳（メタデータ） (2023-06-28T00:46:58Z)
Decentralized Stochastic Proximal Gradient Descent with Variance Reduction over Time-varying Networks [30.231314171218994]
分散学習において、ノードのネットワークは、通常、その局所的な目的の有限サムである全体的な目的関数を最小化するために協力する。そこで本研究では,分散縮小手法を利用して分散学習を高速化する新しいアルゴリズムDPSVRGを提案する。
論文参考訳（メタデータ） (2021-12-20T08:23:36Z)
Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文参考訳（メタデータ） (2021-10-20T02:25:25Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Gradient Boosted Binary Histogram Ensemble for Large-scale Regression [60.16351608335641]
本研究では,2値ヒストグラム分割とアンサンブル学習に基づくテキストグラディエント2値ヒストグラムアンサンブル(GBBHE)と呼ばれる大規模回帰問題に対する勾配向上アルゴリズムを提案する。実験では, 勾配向上回帰木 (GBRT) などの他の最先端アルゴリズムと比較して, GBBHEアルゴリズムは大規模データセット上での実行時間が少なく, 有望な性能を示す。
論文参考訳（メタデータ） (2021-06-03T17:05:40Z)
Why Approximate Matrix Square Root Outperforms Accurate SVD in Global Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-05-06T08:03:45Z)
Accumulated Decoupled Learning: Mitigating Gradient Staleness in Inter-Layer Model Parallelization [16.02377434191239]
本稿では, 定常勾配効果を緩和するために, 勾配累積法を取り入れた累積非結合学習(ADL)を提案する。提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。 ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。
論文参考訳（メタデータ） (2020-12-03T11:52:55Z)
Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文参考訳（メタデータ） (2020-06-16T13:41:54Z)
Proximal Gradient Temporal Difference Learning: Stable Reinforcement Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文参考訳（メタデータ） (2020-06-06T21:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。