Fugu-MT 論文翻訳(概要): Finite-Sample Analysis of Stochastic Approximation Using Smooth Convex Envelopes

論文の概要: Finite-Sample Analysis of Stochastic Approximation Using Smooth Convex Envelopes

arxiv url: http://arxiv.org/abs/2002.00874v6
Date: Wed, 30 Jun 2021 13:09:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-04 08:38:48.446764
Title: Finite-Sample Analysis of Stochastic Approximation Using Smooth Convex Envelopes
Title（参考訳）: Smooth Convex Envelopes を用いた確率近似の有限サンプル解析
Authors: Zaiwei Chen, Siva Theja Maguluri, Sanjay Shakkottai, and Karthikeyan Shanmugam
Abstract要約: 一般化エンベロープを用いて滑らかなリャプノフ函数を構築し、そのリャプノフ函数に対してSAの反復体が負のドリフトを持つことを示す。特に、政治以外のTD学習において、Vトレースアルゴリズムの最初の既知収束率を確立するためにこれを用いる。また、TD学習を現場で研究し、既存の最先端の成果を$Q$ラーニングで回収する。
参考スコア（独自算出の注目度）: 40.31139355952393
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stochastic Approximation (SA) is a popular approach for solving fixed-point equations where the information is corrupted by noise. In this paper, we consider an SA involving a contraction mapping with respect to an arbitrary norm, and show its finite-sample error bounds while using different stepsizes. The idea is to construct a smooth Lyapunov function using the generalized Moreau envelope, and show that the iterates of SA have negative drift with respect to that Lyapunov function. Our result is applicable in Reinforcement Learning (RL). In particular, we use it to establish the first-known convergence rate of the V-trace algorithm for off-policy TD-learning. Moreover, we also use it to study TD-learning in the on-policy setting, and recover the existing state-of-the-art results for $Q$-learning. Importantly, our construction results in only a logarithmic dependence of the convergence bound on the size of the state-space.
Abstract（参考訳）: 確率近似 (stochastic approximation, sa) は、情報がノイズによって腐敗する不動点方程式を解く一般的な手法である。本稿では、任意のノルムに対する縮約写像を含むSAを考察し、異なる段数を用いて有限サンプル誤差境界を示す。この考え方は、一般化されたモローエンベロープを用いて滑らかなリャプノフ函数を構築し、SA の反復体がそのリャプノフ函数に対して負のドリフトを持つことを示す。この結果は強化学習(RL)に適用できる。特に,オフポリシーtd学習におけるvトレースアルゴリズムの初見収束率の確立に使用する。さらに,td-learningをオン・ポリシー・セッティングで研究し,q$-learningのために既存の最新結果を復元する。重要なことに、我々の構成は状態空間のサイズに縛られた収束の対数依存だけをもたらす。

関連論文リスト

Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。適切なアクションにクレジットを割り当てるには? 本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文参考訳（メタデータ） (2025-05-26T17:44:08Z)
Modular Distributed Nonconvex Learning with Error Feedback [1.3198143828338362]
圧縮通信を用いた新しい分散学習アルゴリズムを設計する。より詳しくは、モジュラーアプローチ、ADMM、勾配に基づくアプローチを追求する。
論文参考訳（メタデータ） (2025-03-18T09:16:51Z)
Stochastic Approximation with Unbounded Markovian Noise: A General-Purpose Theorem [7.443139252028032]
非有界な状態空間と報酬関数を持つ平均逆強化学習を考える。近年の研究では、この問題をアクター批判の枠組みで研究している。線形関数近似を用いた時間差分学習(TD)について検討した。
論文参考訳（メタデータ） (2024-10-29T03:40:53Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Riemannian Federated Learning via Averaging Gradient Stream [8.75592575216789]
本稿では,RFedAGS(Federated Averaging Gradient Stream)アルゴリズムの開発と解析を行う。合成および実世界のデータを用いて数値シミュレーションを行い,提案したRFedAGSの性能を実証した。
論文参考訳（メタデータ） (2024-09-11T12:28:42Z)
A Finite-Sample Analysis of an Actor-Critic Algorithm for Mean-Variance Optimization in a Discounted MDP [1.0923877073891446]
政策評価のために線形関数近似(LFA)を用いた時間差分学習アルゴリズムを解析する。我々は、(i) を平均二乗の意味で保持し、(ii) を尾の反復平均化の下で高い確率で導く有限サンプル境界を導出する。これらの結果は、強化学習におけるリスクに敏感なアクター批判法に対する有限サンプル理論的保証を確立する。
論文参考訳（メタデータ） (2024-06-12T05:49:53Z)
Gaussian Approximation and Multiplier Bootstrap for Polyak-Ruppert Averaged Linear Stochastic Approximation with Applications to TD Learning [15.041074872715752]
マルチプライヤブートストラップに基づくパラメータ推定における信頼区間の有効性を検証した。本稿では,線形関数近似を用いた時間差学習の設定について述べる。
論文参考訳（メタデータ） (2024-05-26T17:43:30Z)
Taming Score-Based Diffusion Priors for Infinite-Dimensional Nonlinear Inverse Problems [4.42498215122234]
本研究では,関数空間におけるベイズ逆問題の解法を提案する。可能性の対数共空性は仮定せず、非線型逆問題と互換性がある。従来の正規化法で確立された固定点法に着想を得た新しい収束解析を行う。
論文参考訳（メタデータ） (2024-05-24T16:17:01Z)
Imitation Learning in Discounted Linear MDPs without exploration assumptions [58.81226849657474]
ILARLと呼ばれる無限水平線形MDPにおける模倣学習のための新しいアルゴリズムを提案する。所望の精度$epsilon$から$mathcalO(epsilon-5)$から$mathcalO(epsilon-4)$への依存を改善する。線形関数近似による数値実験により、ILARLは他のよく使われるアルゴリズムよりも優れていることが示された。
論文参考訳（メタデータ） (2024-05-03T15:28:44Z)
Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文参考訳（メタデータ） (2022-04-20T21:15:38Z)
On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2022-02-28T13:01:04Z)
SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文参考訳（メタデータ） (2020-03-05T14:33:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。