論文の概要: Understanding Progressive Training Through the Framework of Randomized
Coordinate Descent
- arxiv url: http://arxiv.org/abs/2306.03626v1
- Date: Tue, 6 Jun 2023 12:27:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 15:35:23.172992
- Title: Understanding Progressive Training Through the Framework of Randomized
Coordinate Descent
- Title(参考訳): ランダム座標降下の枠組みによるプログレッシブトレーニングの理解
- Authors: Rafa{\l} Szlendak, Elnur Gasanov, Peter Richt\'arik
- Abstract要約: 我々は、よく知られたプログレッシブトレーニング手法(PT)のプロキシであるランダム化プログレッシブトレーニングアルゴリズム(RPT)を提案する。
RPT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is first PT is
- 参考スコア(独自算出の注目度): 1.6758573326215689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a Randomized Progressive Training algorithm (RPT) -- a stochastic
proxy for the well-known Progressive Training method (PT) (Karras et al.,
2017). Originally designed to train GANs (Goodfellow et al., 2014), PT was
proposed as a heuristic, with no convergence analysis even for the simplest
objective functions. On the contrary, to the best of our knowledge, RPT is the
first PT-type algorithm with rigorous and sound theoretical guarantees for
general smooth objective functions. We cast our method into the established
framework of Randomized Coordinate Descent (RCD) (Nesterov, 2012; Richt\'arik &
Tak\'a\v{c}, 2014), for which (as a by-product of our investigations) we also
propose a novel, simple and general convergence analysis encapsulating
strongly-convex, convex and nonconvex objectives. We then use this framework to
establish a convergence theory for RPT. Finally, we validate the effectiveness
of our method through extensive computational experiments.
- Abstract(参考訳): 我々は、よく知られたプログレッシブトレーニング法(PT)の確率的プロキシであるランダム化プログレッシブトレーニングアルゴリズム(RPT)を提案する(Karras et al., 2017)。
当初、GANを訓練するために設計された(Goodfellow et al., 2014)PTは、最も単純な目的関数に対しても収束解析を行わず、ヒューリスティックとして提案された。
それとは対照的に、我々の知る限り、RTPは一般の滑らかな目的関数に対する厳密で健全な理論的保証を持つ最初のPT型アルゴリズムである。
我々は,Randomized Coordinate Descent (RCD) (Nesterov, 2012; Richt\'arik & Tak\'a\v{c}, 2014) の確立された枠組みに本手法を投入した。
次に、この枠組みを用いてRTTの収束理論を確立する。
最後に,提案手法の有効性を計算実験により検証した。
関連論文リスト
- Iterative Preference Learning from Human Feedback: Bridging Theory and
Practice for RLHF under KL-Constraint [59.18441633176669]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程の理論的枠組みについて検討する。
我々は、標準的な数学的定式化、RLHFの逆KL正規化文脈帯域を考える。
我々は、オフライン、オンライン、ハイブリッドの3つの異なる設定でその振る舞いを調査し、有限サンプル理論的保証を持つ効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Global Convergence of Receding-Horizon Policy Search in Learning
Estimator Designs [3.0811185425377743]
本稿では,Receding-Horizon Policy estimator (RHPG)アルゴリズムを提案する。
RHPGは、最適線形ポリシー推定器の学習において証明可能な大域収束を持つ最初のアルゴリズムである。
論文 参考訳(メタデータ) (2023-09-09T16:03:49Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Natural Actor-Critic for Robust Reinforcement Learning with Function
Approximation [20.43657369407846]
本研究では,トレーニングシミュレータとテスト環境間のモデルミスマッチに対して頑健な評価政策を決定することを目的として,ロバスト強化学習(RL)について検討する。
本稿では2つの新しい不確実性集合の定式化を提案し,その1つは二重サンプリングに基づくものであり,もう1つは積分確率計量に基づくものである。
複数の MuJoCo 環境と実世界の TurtleBot ナビゲーションタスクにおいて,提案した RNAC アプローチによって学習されたポリシーの堅牢性を示す。
論文 参考訳(メタデータ) (2023-07-17T22:10:20Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [67.07008558942792]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - A Unified Convergence Theorem for Stochastic Optimization Methods [4.94128206910124]
一連の統一最適化手法に対する収束結果の導出に使用される基本的な統一収束定理を提供する。
直接応用として、一般的な設定下での収束結果をほぼ確実に回復する。
論文 参考訳(メタデータ) (2022-06-08T14:01:42Z) - A Stochastic Bundle Method for Interpolating Networks [18.313879914379008]
本稿では,実験的な損失をゼロにすることができるディープニューラルネットワークのトレーニング手法を提案する。
各イテレーションにおいて,本手法は目的学習近似のバンドルとして知られる最大線形近似を構成する。
論文 参考訳(メタデータ) (2022-01-29T23:02:30Z) - From Majorization to Interpolation: Distributionally Robust Learning
using Kernel Smoothing [1.2891210250935146]
確率指標に基づく分布的ロバスト最適化(DRO)の関数近似の側面を検討する。
本稿では,滑らかな関数近似と畳み込みに基づく堅牢な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-16T22:25:18Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。