論文の概要: Robust $Q$-learning Algorithm for Markov Decision Processes under
Wasserstein Uncertainty
- arxiv url: http://arxiv.org/abs/2210.00898v1
- Date: Fri, 30 Sep 2022 10:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:31:03.753622
- Title: Robust $Q$-learning Algorithm for Markov Decision Processes under
Wasserstein Uncertainty
- Title(参考訳): Wasserstein不確かさ下でのマルコフ決定過程のロバスト$Q$学習アルゴリズム
- Authors: Ariel Neufeld, Julian Sester
- Abstract要約: 分布的ロバストなマルコフ決定問題を解くために,新しい$Q$-learningアルゴリズムを提案する。
マルコフ決定過程に対する遷移確率のあいまいさの対応する集合は、(おそらく推定される)基準測度の周りのワッサーシュタイン球である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel $Q$-learning algorithm to solve distributionally robust
Markov decision problems, where the corresponding ambiguity set of transition
probabilities for the underlying Markov decision process is a Wasserstein ball
around a (possibly estimated) reference measure. We prove convergence of the
presented algorithm and provide several examples also using real data to
illustrate both the tractability of our algorithm as well as the benefits of
considering distributional robustness when solving stochastic optimal control
problems, in particular when the estimated distributions turn out to be
misspecified in practice.
- Abstract(参考訳): マルコフ決定過程における遷移確率の曖昧性セットが、(おそらく推定される)基準測度の周りのワッサースタイン球である分布的ロバストなマルコフ決定問題を解くために、新しいq$-learningアルゴリズムを提案する。
本稿では,提案アルゴリズムの収束を証明し,実データを用いて,確率的最適制御問題を解く際の分布的ロバスト性,特に推定分布が実際には不特定化されている場合の分布的ロバスト性について考察する。
関連論文リスト
- Deep Learning Methods for S Shaped Utility Maximisation with a Random Reference Point [0.0]
深層学習法と双対解法を用いて問題を解くための数値解法を開発した。
深層学習法を用いて、原始問題と双対問題の両方に対して関連するハミルトン・ヤコビ・ベルマン方程式を解く。
完全市場と不完全市場の両方において、この非凹凸問題の解を、ベンチマークに依存するランダム関数である定式化ユーティリティの解と比較する。
論文 参考訳(メタデータ) (2024-10-07T22:07:59Z) - Robust Q-Learning for finite ambiguity sets [2.3020018305241337]
分布的に堅牢なマルコフ決定問題を解くための新しい$Q$-learningアルゴリズムを提案する。
我々のアプローチは、ある基準測度の周りの球のあいまいさ集合を含むよく研究されたケースを越えている。
論文 参考訳(メタデータ) (2024-07-05T05:19:36Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。
そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。
実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-05T23:51:07Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Machine Unlearning via Algorithmic Stability [31.809738694273623]
我々はマシンアンラーニングの問題を研究し、総変動(TV)安定性の概念を特定します。
凸リスク最小化問題に対して、ノイズグラディエントDescent(SGD)に基づくTV安定アルゴリズムを設計する。
我々のアルゴリズムを一般化する手法も微分プライベートである。
論文 参考訳(メタデータ) (2021-02-25T21:16:56Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Approximating Euclidean by Imprecise Markov Decision Processes [3.0017241250121383]
我々は、ユークリッド過程が有限状態近似によって近似されるとき、どのような近似保証が得られるかを検討する。
有限時間地平線上のコスト関数について、近似が任意に正確になることを示す。
論文 参考訳(メタデータ) (2020-06-26T11:58:04Z) - Stochastic Saddle-Point Optimization for Wasserstein Barycenters [69.68068088508505]
オンラインデータストリームによって生成される有限個の点からなるランダムな確率測度に対する人口推定バリセンタ問題を考察する。
本稿では,この問題の構造を用いて,凸凹型サドル点再構成を行う。
ランダム確率測度の分布が離散的な場合、最適化アルゴリズムを提案し、その複雑性を推定する。
論文 参考訳(メタデータ) (2020-06-11T19:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。