論文の概要: Model-Free Robust Average-Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.10504v1
- Date: Wed, 17 May 2023 18:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 18:29:26.606836
- Title: Model-Free Robust Average-Reward Reinforcement Learning
- Title(参考訳): モデルフリーロバスト平均方向強化学習
- Authors: Yue Wang, Alvaro Velasquez, George Atia, Ashley Prater-Bennette,
Shaofeng Zou
- Abstract要約: 我々は,モデルフリーの反復設定の下で,ロバストな平均回帰MDPに着目した。
我々は2つのモデルフリーアルゴリズム、ロバスト相対値(RVI)TDとロバスト相対値(RVI)Q-ラーニングを設計し、理論的に最適解への収束性を証明した。
- 参考スコア(独自算出の注目度): 25.125481838479256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust Markov decision processes (MDPs) address the challenge of model
uncertainty by optimizing the worst-case performance over an uncertainty set of
MDPs. In this paper, we focus on the robust average-reward MDPs under the
model-free setting. We first theoretically characterize the structure of
solutions to the robust average-reward Bellman equation, which is essential for
our later convergence analysis. We then design two model-free algorithms,
robust relative value iteration (RVI) TD and robust RVI Q-learning, and
theoretically prove their convergence to the optimal solution. We provide
several widely used uncertainty sets as examples, including those defined by
the contamination model, total variation, Chi-squared divergence,
Kullback-Leibler (KL) divergence and Wasserstein distance.
- Abstract(参考訳): ロバスト・マルコフ決定プロセス(MDP)は、不確実性の集合に対する最悪の性能を最適化することで、モデル不確実性の課題に対処する。
本稿では,モデルフリー環境下でのロバストな平均回帰MDPに着目した。
まず、後続の収束解析に不可欠であるロバスト平均逆ベルマン方程式の解の構造を理論的に特徴づける。
次に、2つのモデルフリーアルゴリズム、ロバストな相対値反復(RVI)TDとロバストなRVIQ学習を設計し、理論的に最適解への収束を証明した。
汚染モデル,全変量,Chi-2乗発散,Kullback-Leibler(KL)発散,Wasserstein距離など,広く使用されている不確実性集合を例に挙げる。
関連論文リスト
- Annealed Stein Variational Gradient Descent for Improved Uncertainty Estimation in Full-Waveform Inversion [25.714206592953545]
変分推論 (VI) は、パラメトリックまたは非パラメトリックな提案分布の形で後部分布に近似的な解を与える。
本研究は、フルウェーブフォーム・インバージョンにおけるVIの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-17T06:15:26Z) - On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes [11.868402302316131]
本稿では,マルコフ決定過程(MDP)の強化学習(RL)アルゴリズムを,平均回帰基準の下で解析する。
本稿では,MDPを弱通信する反復RVI法のモデル自由集合であるRVI(Rexent Value)に基づくQ-learningアルゴリズムに着目した。
論文 参考訳(メタデータ) (2024-08-29T04:57:44Z) - Total Uncertainty Quantification in Inverse PDE Solutions Obtained with Reduced-Order Deep Learning Surrogate Models [50.90868087591973]
機械学習サロゲートモデルを用いて得られた逆PDE解の総不確かさを近似したベイズ近似法を提案する。
非線型拡散方程式に対する反復的アンサンブルスムーズおよび深層アンサンブル法との比較により,提案手法を検証した。
論文 参考訳(メタデータ) (2024-08-20T19:06:02Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Wasserstein Distributionally Robust Inverse Multiobjective Optimization [14.366265951396587]
分散ロバストな逆多目的最適化問題(WRO-IMOP)を開発する。
We show that the excess risk of the WRO-IMOP estimator has a sub-linear convergence rate。
合成多目的二次プログラムと実世界のポートフォリオ最適化問題において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-09-30T10:44:07Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。