論文の概要: Near-Optimal Sample Complexities of Divergence-based S-rectangular Distributionally Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.12202v1
- Date: Sun, 18 May 2025 02:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.089925
- Title: Near-Optimal Sample Complexities of Divergence-based S-rectangular Distributionally Robust Reinforcement Learning
- Title(参考訳): ディバージェンスに基づくS矩形分布性ロバスト強化学習におけるほぼ最適サンプル複雑さ
- Authors: Zhenghao Li, Shengbo Wang, Nian Si,
- Abstract要約: 分散ロバスト強化学習(DR-RL)は,最近,訓練環境と試験環境の相違に対処する原則的アプローチとして注目されている。
堅牢性、保守性、および計算トレーサビリティのバランスをとるため、文献はSA-正方形およびS-正方形対向を持つDR-RLモデルを導入した。
発散型S矩形DR-RLに対する実験値反復アルゴリズムについて検討し, ほぼ最適サンプル複雑性境界を確立する。
- 参考スコア(独自算出の注目度): 6.559788182871813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributionally robust reinforcement learning (DR-RL) has recently gained significant attention as a principled approach that addresses discrepancies between training and testing environments. To balance robustness, conservatism, and computational traceability, the literature has introduced DR-RL models with SA-rectangular and S-rectangular adversaries. While most existing statistical analyses focus on SA-rectangular models, owing to their algorithmic simplicity and the optimality of deterministic policies, S-rectangular models more accurately capture distributional discrepancies in many real-world applications and often yield more effective robust randomized policies. In this paper, we study the empirical value iteration algorithm for divergence-based S-rectangular DR-RL and establish near-optimal sample complexity bounds of $\widetilde{O}(|\mathcal{S}||\mathcal{A}|(1-\gamma)^{-4}\varepsilon^{-2})$, where $\varepsilon$ is the target accuracy, $|\mathcal{S}|$ and $|\mathcal{A}|$ denote the cardinalities of the state and action spaces, and $\gamma$ is the discount factor. To the best of our knowledge, these are the first sample complexity results for divergence-based S-rectangular models that achieve optimal dependence on $|\mathcal{S}|$, $|\mathcal{A}|$, and $\varepsilon$ simultaneously. We further validate this theoretical dependence through numerical experiments on a robust inventory control problem and a theoretical worst-case example, demonstrating the fast learning performance of our proposed algorithm.
- Abstract(参考訳): 分散ロバスト強化学習(DR-RL)は,最近,訓練環境と試験環境の相違に対処する原則的アプローチとして注目されている。
堅牢性、保守性、および計算トレーサビリティのバランスをとるため、文献はSA-正方形およびS-正方形対向を持つDR-RLモデルを導入した。
既存の統計分析では、アルゴリズムの単純さと決定論的なポリシーの最適性により、SA-正方形モデルに焦点が当てられているが、S-正方形モデルは現実世界の多くのアプリケーションにおける分布上の不一致をより正確に捉え、しばしばより効果的なロバストなランダム化ポリシーをもたらす。
本稿では,分散型S-正方形DR-RLに対する経験的値反復アルゴリズムについて検討し,$\widetilde{O}(|\mathcal{S}||\mathcal{A}|(1-\gamma)^{-4}\varepsilon^{-2})$,$\varepsilon$は目標精度,$|\mathcal{S}|$および$|\mathcal{A}|$は状態と作用空間の特異点を示し,$\gamma$は割引係数を示す。
我々の知る限り、これらは、$|\mathcal{S}|$, $|\mathcal{A}|$, $\varepsilon$の最適依存を同時に達成する発散に基づくS-矩形モデルの最初のサンプル複雑性結果である。
さらに、ロバストな在庫管理問題と理論的最悪の例に関する数値実験を通じて、この理論的依存を検証し、提案アルゴリズムの高速学習性能を実証する。
関連論文リスト
- Sample Complexity of Variance-reduced Distributionally Robust Q-learning [17.96094201655567]
本稿では,分散性に頑健なQ-ラーニングアルゴリズムと,分散性に欠けるロバストなポリシーを効果的に学習できる分散性のあるQ-ラーニングアルゴリズムを2つ提案する。
一連の数値実験により、分布シフトの処理におけるアルゴリズムの理論的発見と効率性が確認された。
論文 参考訳(メタデータ) (2023-05-28T19:40:46Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Instability and Local Minima in GAN Training with Kernel Discriminators [20.362912591032636]
GAN(Generative Adversarial Networks)は、複雑なデータの生成モデリングに広く使われているツールである。
実験的な成功にもかかわらず、ジェネレータと判別器のmin-max最適化のため、GANの訓練は十分には理解されていない。
本稿では、真のサンプルと生成されたサンプルが離散有限集合であり、判別器がカーネルベースである場合に、これらの関節力学を解析する。
論文 参考訳(メタデータ) (2022-08-21T18:03:06Z) - KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal [70.15267479220691]
モデル強化学習のサンプル複雑性を,生成的分散自由モデルを用いて検討・解析する。
我々の分析は、$varepsilon$が十分小さい場合、$varepsilon$-optimal Policyを見つけるのが、ほぼ最小の最適化であることを示している。
論文 参考訳(メタデータ) (2022-05-27T19:39:24Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。