Fugu-MT 論文翻訳(概要): Sample Complexity of Variance-reduced Distributionally Robust Q-learning

論文の概要: Sample Complexity of Variance-reduced Distributionally Robust Q-learning

arxiv url: http://arxiv.org/abs/2305.18420v2
Date: Wed, 4 Sep 2024 05:03:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-07 05:11:54.871538
Title: Sample Complexity of Variance-reduced Distributionally Robust Q-learning
Title（参考訳）: 分散再現型ロバストQ-ラーニングのサンプル複雑度
Authors: Shengbo Wang, Nian Si, Jose Blanchet, Zhengyuan Zhou,
Abstract要約: 本稿では,分散性に頑健なQ-ラーニングアルゴリズムと,分散性に欠けるロバストなポリシーを効果的に学習できる分散性のあるQ-ラーニングアルゴリズムを2つ提案する。一連の数値実験により、分布シフトの処理におけるアルゴリズムの理論的発見と効率性が確認された。
参考スコア（独自算出の注目度）: 17.96094201655567
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dynamic decision-making under distributional shifts is of fundamental interest in theory and applications of reinforcement learning: The distribution of the environment in which the data is collected can differ from that of the environment in which the model is deployed. This paper presents two novel model-free algorithms, namely the distributionally robust Q-learning and its variance-reduced counterpart, that can effectively learn a robust policy despite distributional shifts. These algorithms are designed to efficiently approximate the $q$-function of an infinite-horizon $\gamma$-discounted robust Markov decision process with Kullback-Leibler ambiguity set to an entry-wise $\epsilon$-degree of precision. Further, the variance-reduced distributionally robust Q-learning combines the synchronous Q-learning with variance-reduction techniques to enhance its performance. Consequently, we establish that it attains a minimax sample complexity upper bound of $\tilde O(|\mathbf{S}||\mathbf{A}|(1-\gamma)^{-4}\epsilon^{-2})$, where $\mathbf{S}$ and $\mathbf{A}$ denote the state and action spaces. This is the first complexity result that is independent of the ambiguity size $\delta$, thereby providing new complexity theoretic insights. Additionally, a series of numerical experiments confirm the theoretical findings and the efficiency of the algorithms in handling distributional shifts.
Abstract（参考訳）: データを収集する環境の分布は、モデルをデプロイする環境の分布と異なる可能性がある。本稿では,分散性に頑健なQ-ラーニングアルゴリズムと,分散性に欠けるロバストなポリシーを効果的に学習できる分散性のあるQ-ラーニングアルゴリズムを2つ提案する。これらのアルゴリズムは、無限水平$\gamma$-discounted robust Markov decision process with Kullback-Leibler ambiguity set to a entry-wise $\epsilon$-degree of precision の$q$-functionを効率的に近似するように設計されている。さらに、分散再現型分散ロバストQ-ラーニングは、同期Q-ラーニングと分散還元技術を組み合わせて、その性能を向上させる。したがって、これは$\tilde O(|\mathbf{S}|||\mathbf{A}|(1-\gamma)^{-4}\epsilon^{-2})$のミニマックス標本複雑性上限に達し、$\mathbf{S}$と$\mathbf{A}$は状態と作用空間を表す。これは曖昧さのサイズの$\delta$とは無関係に、新しい複雑性理論的な洞察を提供する最初の複雑性結果である。さらに、一連の数値実験により、分布シフトを扱うアルゴリズムの理論的発見と効率が確認される。

関連論文リスト

Near-Optimal Sample Complexities of Divergence-based S-rectangular Distributionally Robust Reinforcement Learning [6.559788182871813]
分散ロバスト強化学習(DR-RL)は,最近,訓練環境と試験環境の相違に対処する原則的アプローチとして注目されている。堅牢性、保守性、および計算トレーサビリティのバランスをとるため、文献はSA-正方形およびS-正方形対向を持つDR-RLモデルを導入した。発散型S矩形DR-RLに対する実験値反復アルゴリズムについて検討し, ほぼ最適サンプル複雑性境界を確立する。
論文参考訳（メタデータ） (2025-05-18T02:35:39Z)
Stochastic Optimization with Optimal Importance Sampling [49.484190237840714]
本稿では,両者の時間的分離を必要とせずに,意思決定とIS分布を共同で更新する反復型アルゴリズムを提案する。本手法は,IS分布系に対する目的的,軽度な仮定の凸性の下で,最小の変数分散を達成し,大域収束を保証する。
論文参考訳（メタデータ） (2025-04-04T16:10:18Z)
Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4376560669160394]
Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。 VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文参考訳（メタデータ） (2024-08-13T00:34:33Z)
Distributionally Robust Model-based Reinforcement Learning with Large State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2023-09-05T13:42:11Z)
Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文参考訳（メタデータ） (2023-08-17T08:34:58Z)
Improved Sample Complexity Bounds for Distributionally Robust Reinforcement Learning [3.222802562733787]
トレーニング環境とテスト環境のパラメータミスマッチに対して頑健な制御ポリシーを学習することの問題点を考察する。本研究では,4つの異なる発散によって特定される不確実性集合に対して,ロバスト位相値学習(RPVL)アルゴリズムを提案する。提案アルゴリズムは,既存の結果より一様によいサンプル複雑性を$tildemathcalO(|mathcalSmathcalA| H5)$とする。
論文参考訳（メタデータ） (2023-03-05T21:47:08Z)
A Finite Sample Complexity Bound for Distributionally Robust Q-learning [17.96094201655567]
我々は,展開環境が訓練環境と異なる強化学習環境を考える。ロバストなマルコフ決定プロセスの定式化を適用することで、Liuらで研究されている分布的にロバストな$Q$ラーニングフレームワークを拡張します。これはモデルのないロバストなRL問題に対する最初のサンプル複雑性結果である。
論文参考訳（メタデータ） (2023-02-26T01:15:32Z)
Ensemble Multi-Quantiles: Adaptively Flexible Distribution Prediction for Uncertainty Quantification [4.728311759896569]
本稿では,機械学習における不確実性を定量化するために,分布予測の新しい,簡潔かつ効果的な手法を提案する。これは回帰タスクにおいて$mathbbP(mathbfy|mathbfX=x)$の適応的に柔軟な分布予測を組み込む。 UCIデータセットからの大規模な回帰タスクでは、EMQが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2022-11-26T11:45:32Z)
Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文参考訳（メタデータ） (2021-07-02T16:21:52Z)
Instance-optimality in optimal value estimation: Adaptivity via variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文参考訳（メタデータ） (2021-06-28T00:38:54Z)
Tightening the Dependence on Horizon in the Sample Complexity of Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文参考訳（メタデータ） (2021-02-12T14:22:05Z)
Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。 Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文参考訳（メタデータ） (2020-06-04T17:51:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。