論文の概要: Central Limit Theorem for Two-Time-Scale Approximate Distributionally Robust RL
- arxiv url: http://arxiv.org/abs/2605.08417v1
- Date: Fri, 08 May 2026 19:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.629523
- Title: Central Limit Theorem for Two-Time-Scale Approximate Distributionally Robust RL
- Title(参考訳): 2時間スケール近似分布ロバストRLの中央極限理論
- Authors: Shengbo Wang, Zexi Zhang,
- Abstract要約: 堅牢な強化学習アルゴリズムの設計は根本的な課題を生んでいる。
本稿では、関連するロバスト関数の1次展開に基づく近似DRRLフレームワークを提案する。
この近似方程式の定点を学習するために,平均変数近似(MVSA)を提案する。
- 参考スコア(独自算出の注目度): 8.809468023364703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing model-free algorithms for distributionally robust reinforcement learning (DRRL) poses fundamental challenges. The robust Bellman operator is nonlinear in the transition kernel, which makes one-sample Bellman updates biased, while the adversarial optimization underlying robustness makes robust evaluation computationally demanding. To address these difficulties, we consider the natural small-ambiguity regime under Kullback--Leibler ambiguity sets and propose an approximate DRRL framework based on a first-order expansion of the relevant robust functional. This yields an approximate robust Bellman equation that removes the adversarial optimization while remaining first-order accurate in the ambiguity radius. To learn the fixed point of this approximate equation, we propose Mean-Variance Stochastic Approximation (MVSA), a model-free algorithm that uses only one-sample updates. This is achieved via a lifted stochastic approximation dynamics and a two-time-scale design. We then prove convergence and a central limit theorem for MVSA: its main iterate satisfies a central limit theorem at the canonical $n^{-1/2}$ scale, with explicitly characterized asymptotic covariances. Finally, we validate our theoretical findings with a numerical experiment.
- Abstract(参考訳): 分散ロバスト強化学習(DRRL)のためのモデルフリーアルゴリズムの設計は基本的な課題である。
頑健なベルマン作用素はトランジションカーネルにおいて非線形であり、1サンプルのベルマン更新をバイアスにする一方、頑健性に基づく逆最適化は頑健な評価を計算的に要求する。
これらの問題に対処するために、Kulback-Leibler のあいまいさ集合の下での自然な小あいさ構造を考察し、関連するロバスト関数の1次展開に基づく近似DRRLフレームワークを提案する。
これは、アンビグニティ半径において1次精度を保ちながら、逆最適化を除去する、近似的なロバストなベルマン方程式をもたらす。
この近似方程式の定点を学習するために,一サンプル更新のみを使用するモデルフリーアルゴリズムである平均分散確率近似(MVSA)を提案する。
これは、昇降確率近似力学と2時間スケールの設計によって達成される。
次に、収束とMVSAの中央極限定理を証明し、その主イテレートは、漸近共変を明示的に特徴づけた標準の$n^{-1/2}$スケールで中心極限定理を満たす。
最後に,数値実験により理論的知見を検証した。
関連論文リスト
- Decentralized Proximal Stochastic Gradient Langevin Dynamics [4.385194124090593]
凸領域に制約された対数凹面確率分布からのサンプリングのための分散近位ランゲヴィンダイナミクス(DE-PSGLD)。
制約領域に対する最初の分散化アプローチとして、アルゴリズムは高速な後部濃度と高い予測精度を示す。
論文 参考訳(メタデータ) (2026-05-01T15:11:06Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium [0.6820746164515952]
閉ループ予測の原理を導入し、自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練することを要求する。
この原理をEquilibrium Transformerとしてインスタンス化し,標準トランス層をEquilibrium Refinement Moduleで拡張する。
バイナリパリティタスクに関する予備実験では、チャレンジシーケンスの平均改善率は+3.28%で、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
論文 参考訳(メタデータ) (2025-11-26T20:02:59Z) - Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning [50.81240969750462]
我々は、ロバスト平均マルコフ決定過程(PMD)における政策評価の第1次有限サンプル解析を提案する。
頑健なベルマン作用素は、慎重に構築された半ノルムの下で収縮し、制御バイアスを持つフレームワークを開発することを示す。
本手法は,ロバストな政策評価とロバストな平均報酬推定のために,$tildemathcalO(epsilon-2)$のオーダー最適サンプル複雑性を実現する。
論文 参考訳(メタデータ) (2025-02-24T03:55:09Z) - Utilising the CLT Structure in Stochastic Gradient based Sampling :
Improved Analysis and Faster Algorithms [14.174806471635403]
粒子ダイナミック(IPD)に対するグラディエント・ランゲヴィン・ダイナミクス(SGLD)やランダムバッチ法(RBM)などのサンプリングアルゴリズムの近似を考察する。
近似によって生じる雑音は中央極限定理(CLT)によりほぼガウス的であるが、ブラウン運動はまさにガウス的である。
この構造を利用して拡散過程内の近似誤差を吸収し、これらのアルゴリズムの収束保証を改善する。
論文 参考訳(メタデータ) (2022-06-08T10:17:40Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。