論文の概要: Robust $Q$-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty
- arxiv url: http://arxiv.org/abs/2210.00898v3
- Date: Thu, 20 Jun 2024 15:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 11:31:36.852092
- Title: Robust $Q$-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty
- Title(参考訳): Wasserstein不確かさ下でのマルコフ決定過程のロバスト$Q$学習アルゴリズム
- Authors: Ariel Neufeld, Julian Sester,
- Abstract要約: 分布的ロバストなマルコフ決定問題を解くために,新しい$Q$-learningアルゴリズムを提案する。
提案アルゴリズムの収束性および最適制御問題の解法における分布ロバスト性の検討の利点を実証する。
- 参考スコア(独自算出の注目度): 5.639904484784127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel $Q$-learning algorithm tailored to solve distributionally robust Markov decision problems where the corresponding ambiguity set of transition probabilities for the underlying Markov decision process is a Wasserstein ball around a (possibly estimated) reference measure. We prove convergence of the presented algorithm and provide several examples also using real data to illustrate both the tractability of our algorithm as well as the benefits of considering distributional robustness when solving stochastic optimal control problems, in particular when the estimated distributions turn out to be misspecified in practice.
- Abstract(参考訳): 本稿では,マルコフ決定過程の遷移確率のあいまいさの集合が,(おそらく推定される)参照測度を中心としたワッサーシュタイン球であるような分布的に堅牢なマルコフ決定問題の解法として,新しい$Q$-learningアルゴリズムを提案する。
提案アルゴリズムの収束性を証明し,提案アルゴリズムのトラクタビリティと,確率的最適制御問題の解法における分布ロバスト性,特に推定分布が実際に誤って特定された場合の利点の両方を実データを用いて示す。
関連論文リスト
- Robust Q-Learning for finite ambiguity sets [2.3020018305241337]
分布的に堅牢なマルコフ決定問題を解くための新しい$Q$-learningアルゴリズムを提案する。
我々のアプローチは、ある基準測度の周りの球のあいまいさ集合を含むよく研究されたケースを越えている。
論文 参考訳(メタデータ) (2024-07-05T05:19:36Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。
そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。
実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-05T23:51:07Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Distributionally Robust Optimization with Markovian Data [8.126833795693699]
本研究では,不確実な問題パラメータの確率分布が不明なプログラムについて検討する。
本稿では,問題の目的関数と最適解を推定するために,データ駆動型分布法を提案する。
論文 参考訳(メタデータ) (2021-06-12T10:59:02Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Machine Unlearning via Algorithmic Stability [31.809738694273623]
我々はマシンアンラーニングの問題を研究し、総変動(TV)安定性の概念を特定します。
凸リスク最小化問題に対して、ノイズグラディエントDescent(SGD)に基づくTV安定アルゴリズムを設計する。
我々のアルゴリズムを一般化する手法も微分プライベートである。
論文 参考訳(メタデータ) (2021-02-25T21:16:56Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Approximating Euclidean by Imprecise Markov Decision Processes [3.0017241250121383]
我々は、ユークリッド過程が有限状態近似によって近似されるとき、どのような近似保証が得られるかを検討する。
有限時間地平線上のコスト関数について、近似が任意に正確になることを示す。
論文 参考訳(メタデータ) (2020-06-26T11:58:04Z) - Stochastic Saddle-Point Optimization for Wasserstein Barycenters [69.68068088508505]
オンラインデータストリームによって生成される有限個の点からなるランダムな確率測度に対する人口推定バリセンタ問題を考察する。
本稿では,この問題の構造を用いて,凸凹型サドル点再構成を行う。
ランダム確率測度の分布が離散的な場合、最適化アルゴリズムを提案し、その複雑性を推定する。
論文 参考訳(メタデータ) (2020-06-11T19:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。