論文の概要: Model-Free Robust Average-Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.10504v1
- Date: Wed, 17 May 2023 18:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 18:29:26.606836
- Title: Model-Free Robust Average-Reward Reinforcement Learning
- Title(参考訳): モデルフリーロバスト平均方向強化学習
- Authors: Yue Wang, Alvaro Velasquez, George Atia, Ashley Prater-Bennette,
Shaofeng Zou
- Abstract要約: 我々は,モデルフリーの反復設定の下で,ロバストな平均回帰MDPに着目した。
我々は2つのモデルフリーアルゴリズム、ロバスト相対値(RVI)TDとロバスト相対値(RVI)Q-ラーニングを設計し、理論的に最適解への収束性を証明した。
- 参考スコア(独自算出の注目度): 25.125481838479256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust Markov decision processes (MDPs) address the challenge of model
uncertainty by optimizing the worst-case performance over an uncertainty set of
MDPs. In this paper, we focus on the robust average-reward MDPs under the
model-free setting. We first theoretically characterize the structure of
solutions to the robust average-reward Bellman equation, which is essential for
our later convergence analysis. We then design two model-free algorithms,
robust relative value iteration (RVI) TD and robust RVI Q-learning, and
theoretically prove their convergence to the optimal solution. We provide
several widely used uncertainty sets as examples, including those defined by
the contamination model, total variation, Chi-squared divergence,
Kullback-Leibler (KL) divergence and Wasserstein distance.
- Abstract(参考訳): ロバスト・マルコフ決定プロセス(MDP)は、不確実性の集合に対する最悪の性能を最適化することで、モデル不確実性の課題に対処する。
本稿では,モデルフリー環境下でのロバストな平均回帰MDPに着目した。
まず、後続の収束解析に不可欠であるロバスト平均逆ベルマン方程式の解の構造を理論的に特徴づける。
次に、2つのモデルフリーアルゴリズム、ロバストな相対値反復(RVI)TDとロバストなRVIQ学習を設計し、理論的に最適解への収束を証明した。
汚染モデル,全変量,Chi-2乗発散,Kullback-Leibler(KL)発散,Wasserstein距離など,広く使用されている不確実性集合を例に挙げる。
関連論文リスト
- The Curious Price of Distributional Robustness in Reinforcement Learning
with a Generative Model [63.11179754372823]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Markov Decision Processes under Model Uncertainty [0.0]
モデル不確実性の下でマルコフ決定問題に対する一般的な枠組みを導入する。
このフレームワークをS&P 500のデータを含むポートフォリオ最適化に適用する。
論文 参考訳(メタデータ) (2022-06-13T12:51:31Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Robust Regression via Model Based Methods [13.300549123177705]
モデルベース最適化 (MBO) [35, 36] に着想を得たアルゴリズムを提案し, 非対象を凸モデル関数に置き換える。
これをロバスト回帰に適用し、MBOの内部最適化を解くために、オンライン乗算器のオンライン交互方向法(OOADM) [50] の関数 SADM を提案する。
最後に、(a)アウトレーヤに対するl_pノルムのロバスト性、(b)オートエンコーダ法とマルチターゲット回帰法と比較して、提案したモデルベースアルゴリズムの効率性を実験的に実証した。
論文 参考訳(メタデータ) (2021-06-20T21:45:35Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Wasserstein Distributionally Robust Inverse Multiobjective Optimization [14.366265951396587]
分散ロバストな逆多目的最適化問題(WRO-IMOP)を開発する。
We show that the excess risk of the WRO-IMOP estimator has a sub-linear convergence rate。
合成多目的二次プログラムと実世界のポートフォリオ最適化問題において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-09-30T10:44:07Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z) - Distributionally Robust Bayesian Optimization [121.71766171427433]
そこで本研究では,ゼロ次雑音最適化のための分散ロバストなベイズ最適化アルゴリズム(DRBO)を提案する。
提案アルゴリズムは, 種々の設定において, 線形に頑健な後悔を確実に得る。
提案手法は, 実世界のベンチマークと実世界のベンチマークの両方において, 頑健な性能を示す。
論文 参考訳(メタデータ) (2020-02-20T22:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。