Fugu-MT 論文翻訳(概要): Model-Free Robust Average-Reward Reinforcement Learning

論文の概要: Model-Free Robust Average-Reward Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.10504v1
Date: Wed, 17 May 2023 18:19:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 18:29:26.606836
Title: Model-Free Robust Average-Reward Reinforcement Learning
Title（参考訳）: モデルフリーロバスト平均方向強化学習
Authors: Yue Wang, Alvaro Velasquez, George Atia, Ashley Prater-Bennette, Shaofeng Zou
Abstract要約: 我々は,モデルフリーの反復設定の下で,ロバストな平均回帰MDPに着目した。我々は2つのモデルフリーアルゴリズム、ロバスト相対値(RVI)TDとロバスト相対値(RVI)Q-ラーニングを設計し、理論的に最適解への収束性を証明した。
参考スコア（独自算出の注目度）: 25.125481838479256
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robust Markov decision processes (MDPs) address the challenge of model uncertainty by optimizing the worst-case performance over an uncertainty set of MDPs. In this paper, we focus on the robust average-reward MDPs under the model-free setting. We first theoretically characterize the structure of solutions to the robust average-reward Bellman equation, which is essential for our later convergence analysis. We then design two model-free algorithms, robust relative value iteration (RVI) TD and robust RVI Q-learning, and theoretically prove their convergence to the optimal solution. We provide several widely used uncertainty sets as examples, including those defined by the contamination model, total variation, Chi-squared divergence, Kullback-Leibler (KL) divergence and Wasserstein distance.
Abstract（参考訳）: ロバスト・マルコフ決定プロセス(MDP)は、不確実性の集合に対する最悪の性能を最適化することで、モデル不確実性の課題に対処する。本稿では,モデルフリー環境下でのロバストな平均回帰MDPに着目した。まず、後続の収束解析に不可欠であるロバスト平均逆ベルマン方程式の解の構造を理論的に特徴づける。次に、2つのモデルフリーアルゴリズム、ロバストな相対値反復(RVI)TDとロバストなRVIQ学習を設計し、理論的に最適解への収束を証明した。汚染モデル,全変量,Chi-2乗発散,Kullback-Leibler(KL)発散,Wasserstein距離など,広く使用されている不確実性集合を例に挙げる。

関連論文リスト

Enhancing Distributional Robustness in Principal Component Analysis by Wasserstein Distances [7.695578200868269]
主成分分析(PCA)の分布ロバスト最適化(DRO)モデルについて,基礎となる確率分布の不確実性を考慮する。結果の定式化は非滑らかな制約付き min-max 最適化問題につながり、曖昧性集合はタイプ2$ワッサーシュタイン距離で分布の不確かさを捉える。この明示的な特徴付けは、元の DRO モデルを、複雑な非滑らかな項を持つスティーフェル多様体上の最小化問題に同値に再構成する。
論文参考訳（メタデータ） (2025-03-04T11:00:08Z)
Annealed Stein Variational Gradient Descent for Improved Uncertainty Estimation in Full-Waveform Inversion [25.714206592953545]
変分推論 (VI) は、パラメトリックまたは非パラメトリックな提案分布の形で後部分布に近似的な解を与える。本研究は、フルウェーブフォーム・インバージョンにおけるVIの性能向上を目的としている。
論文参考訳（メタデータ） (2024-10-17T06:15:26Z)
On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes [11.868402302316131]
本稿では,マルコフ決定過程(MDP)の強化学習(RL)アルゴリズムを,平均回帰基準の下で解析する。本稿では,MDPを弱通信する反復RVI法のモデル自由集合であるRVI(Rexent Value)に基づくQ-learningアルゴリズムに着目した。
論文参考訳（メタデータ） (2024-08-29T04:57:44Z)
Total Uncertainty Quantification in Inverse PDE Solutions Obtained with Reduced-Order Deep Learning Surrogate Models [50.90868087591973]
機械学習サロゲートモデルを用いて得られた逆PDE解の総不確かさを近似したベイズ近似法を提案する。非線型拡散方程式に対する反復的アンサンブルスムーズおよび深層アンサンブル法との比較により,提案手法を検証した。
論文参考訳（メタデータ） (2024-08-20T19:06:02Z)
Contextual Optimization under Covariate Shift: A Robust Approach by Intersecting Wasserstein Balls [18.047245099229325]
We propose a novel approach called Intersection Wasserstein-balls DRO (IW-DRO)。 IW-DROは分散ロバストな最適化フレームワークに複数の推定手法を統合する。 IW-DROは単一のWarsserstein-ball DROモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2024-06-04T15:46:41Z)
The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文参考訳（メタデータ） (2023-05-26T02:32:03Z)
Sample Complexity of Robust Reinforcement Learning with a Generative Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文参考訳（メタデータ） (2021-12-02T18:55:51Z)
Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。このアプローチは多くの実装と最適化の課題をもたらします。提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文参考訳（メタデータ） (2021-03-18T14:26:26Z)
Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文参考訳（メタデータ） (2020-11-15T22:36:59Z)
Wasserstein Distributionally Robust Inverse Multiobjective Optimization [14.366265951396587]
分散ロバストな逆多目的最適化問題(WRO-IMOP)を開発する。 We show that the excess risk of the WRO-IMOP estimator has a sub-linear convergence rate。合成多目的二次プログラムと実世界のポートフォリオ最適化問題において,本手法の有効性を実証する。
論文参考訳（メタデータ） (2020-09-30T10:44:07Z)
Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文参考訳（メタデータ） (2020-09-01T19:12:11Z)
Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文参考訳（メタデータ） (2020-03-05T19:56:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。