Fugu-MT 論文翻訳(概要): Decoupled Functional Central Limit Theorems for Two-Time-Scale Stochastic Approximation

論文の概要: Decoupled Functional Central Limit Theorems for Two-Time-Scale Stochastic Approximation

arxiv url: http://arxiv.org/abs/2412.17070v1
Date: Sun, 22 Dec 2024 15:43:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.24527
Title: Decoupled Functional Central Limit Theorems for Two-Time-Scale Stochastic Approximation
Title（参考訳）: 2時間確率近似のためのデカップリング型関数中心極限理論
Authors: Yuze Han, Xiang Li, Jiadong Liang, Zhihua Zhang,
Abstract要約: 2回のスケール近似では、異なるステップサイズで異なるレートで2つのイテレーションが更新され、それぞれが他方に影響を与える。以前の研究では、これらの更新に対する誤差項の収束率はそれぞれのステップサイズにのみ依存していることが示されており、これは分離収束と呼ばれる性質である。我々の研究はこのギャップを埋めるために、2段階のSAに対して分離された機能中心極限定理を確立し、その挙動をより正確に評価する。
参考スコア（独自算出の注目度）: 28.07082348529648
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In two-time-scale stochastic approximation (SA), two iterates are updated at different rates, governed by distinct step sizes, with each update influencing the other. Previous studies have demonstrated that the convergence rates of the error terms for these updates depend solely on their respective step sizes, a property known as decoupled convergence. However, a functional version of this decoupled convergence has not been explored. Our work fills this gap by establishing decoupled functional central limit theorems for two-time-scale SA, offering a more precise characterization of its asymptotic behavior. To achieve these results, we leverage the martingale problem approach and establish tightness as a crucial intermediate step. Furthermore, to address the interdependence between different time scales, we introduce an innovative auxiliary sequence to eliminate the primary influence of the fast-time-scale update on the slow-time-scale update.
Abstract（参考訳）: 2段階の確率近似(SA)では、2つの反復が異なる速度で更新され、それぞれ異なるステップサイズで管理され、それぞれの更新が他方に影響を与える。以前の研究では、これらの更新に対する誤差項の収束率はそれぞれのステップサイズにのみ依存していることが示されており、これは分離収束と呼ばれる性質である。しかし、この分離収束の関数バージョンは検討されていない。我々の研究は、このギャップを補うために、2段階のSAに対して分離された機能中心極限定理を確立し、その漸近的な振る舞いをより正確に評価する。これらの結果を達成するために,マーチンゲール問題のアプローチを活用し,厳密性を重要な中間段階として確立する。さらに、異なる時間スケール間の相互依存性に対処するため、遅い時間スケール更新に対する高速スケール更新の影響をなくすために、革新的な補助シーケンスを導入する。

関連論文リスト

Non-Asymptotic Guarantees for Average-Reward Q-Learning with Adaptive Stepsizes [4.169915659794567]
本研究は,非同期実装を用いたQ-Learningの平均逆Q-Learningの最終項目収束に対する最初の有限時間解析である。私たちが研究しているアルゴリズムの重要な特徴は、各状態-作用ペアの局所クロックとして機能する適応的なステップサイズの使用である。
論文参考訳（メタデータ） (2025-04-25T23:41:14Z)
Statistical guarantees for continuous-time policy evaluation: blessing of ellipticity and new tradeoffs [2.926192989090622]
連続時間マルコフ拡散過程における値関数の推定について検討する。我々の研究は、最小二乗時間差法に対して漸近的でない統計的保証を提供する。
論文参考訳（メタデータ） (2025-02-06T18:39:03Z)
Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文参考訳（メタデータ） (2024-02-19T03:08:02Z)
Finite-Time Decoupled Convergence in Nonlinear Two-Time-Scale Stochastic Approximation [26.97172212786727]
非線形二時間スケール近似における有限時間デカップリング収束の可能性について検討する。ネストされた局所線型性仮定の下では、有限時間非結合収束速度は適切なステップサイズ選択によって達成できる。
論文参考訳（メタデータ） (2024-01-08T13:44:35Z)
Two-Timescale Q-Learning with Function Approximation in Zero-Sum Stochastic Games [31.554420227087043]
そこで本稿では,関数近似を用いた2時間スムーズなQ$学習アルゴリズムを提案する。 2時間スケールの$Q$ラーニングでは、高速スケールは勾配降下に精力的に更新され、より遅いスケールは、前回と最新の高速スケールのコンベックスを組み合わせて更新される。重要な新規性は、遅い時間スケールの進化を捉えるために有効なリャプノフ函数を構築することである。
論文参考訳（メタデータ） (2023-12-08T08:39:36Z)
Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文参考訳（メタデータ） (2023-01-03T04:09:38Z)
Multivariate Time Series Forecasting with Latent Graph Inference [17.428097769724577]
本稿では,時系列間の関係を推定・活用する多変量時系列予測の新しい手法を提案する。我々の手法は、潜在的に完全連結なグラフの1つの極端な推定や、他の極端な二部グラフの1つの極端な推論を提供することによって、精度と計算効率を徐々にトレードオフすることができる。予測精度と時間効率の両モデルが従来のグラフ推論手法よりも優れた,あるいは非常に競争力のある,さまざまなデータセットにおいて,本モデルの有効性を実証する。
論文参考訳（メタデータ） (2022-03-07T14:16:56Z)
Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文参考訳（メタデータ） (2021-06-30T18:32:46Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
Better Regularization for Sequential Decision Spaces: Fast Convergence Rates for Nash, Correlated, and Team Equilibria [121.36609493711292]
大規模2プレーヤワイドフォームゲームの計算平衡問題に対する反復的な一階法の適用について検討する。正則化器を用いて一階法をインスタンス化することにより、相関平衡と元アンティー座標のチーム平衡を計算するための最初の加速一階法を開発する。
論文参考訳（メタデータ） (2021-05-27T06:10:24Z)
Finite-Time Last-Iterate Convergence for Multi-Agent Learning in Games [116.0771177871705]
我々は,$lambda$-cocoerciveゲーム上での連立OGD学習における有限時間最終点収束率を特徴付ける。新たなダブルストッピング時間法により, この適応アルゴリズムは, 非適応的手法と同じ有限時間終点収束率が得られることを示す。
論文参考訳（メタデータ） (2020-02-23T01:46:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。