論文の概要: Distributionally Robust Deep Q-Learning
- arxiv url: http://arxiv.org/abs/2505.19058v1
- Date: Sun, 25 May 2025 09:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.873814
- Title: Distributionally Robust Deep Q-Learning
- Title(参考訳): 分散ロバスト深部Q-Learning
- Authors: Chung I Lu, Julian Sester, Aijia Zhang,
- Abstract要約: 本稿では,連続状態空間に対する分散的ロバストな$Q$-learningアルゴリズムを提案する。
この不確実性は、基準確率測度付近の球から最悪のケース遷移を考慮することにより考慮される。
このアプローチにより、最悪のケース状態遷移を最適化するために、Deep Q-Networkアルゴリズムを修正できます。
- 参考スコア(独自算出の注目度): 2.9767565026354186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel distributionally robust $Q$-learning algorithm for the non-tabular case accounting for continuous state spaces where the state transition of the underlying Markov decision process is subject to model uncertainty. The uncertainty is taken into account by considering the worst-case transition from a ball around a reference probability measure. To determine the optimal policy under the worst-case state transition, we solve the associated non-linear Bellman equation by dualising and regularising the Bellman operator with the Sinkhorn distance, which is then parameterized with deep neural networks. This approach allows us to modify the Deep Q-Network algorithm to optimise for the worst case state transition. We illustrate the tractability and effectiveness of our approach through several applications, including a portfolio optimisation task based on S\&{P}~500 data.
- Abstract(参考訳): 本稿では,マルコフ決定過程の状態遷移がモデル不確実性となる連続状態空間に対する非タブラルケース会計のための,分布的に堅牢な新しい$Q$-learningアルゴリズムを提案する。
この不確実性は、基準確率測度付近の球から最悪のケース遷移を考慮することにより考慮される。
最悪の状態遷移の下で最適方針を決定するために、ベルマン作用素をシンクホーン距離で双対化して正規化することにより、関連する非線形ベルマン方程式を解く。
このアプローチにより、最悪のケース状態遷移を最適化するために、Deep Q-Networkアルゴリズムを修正できます。
S\&{P}~500データに基づくポートフォリオ最適化タスクを含む,いくつかのアプリケーションによるアプローチのトラクタビリティと有効性について説明する。
関連論文リスト
- An Efficient On-Policy Deep Learning Framework for Stochastic Optimal Control [14.832859803172846]
本稿では、最適制御(SOC)問題を解決するための新しいオン政治アルゴリズムを提案する。
ギルサノフの定理を利用することで、微分方程式や随伴問題解による高価なバックプロパゲーションを伴わずに、SOC対象の政治的勾配を直接計算する。
実験により,従来の手法に比べて計算速度とメモリ効率が大幅に向上した。
論文 参考訳(メタデータ) (2024-10-07T16:16:53Z) - Optimization Proxies using Limited Labeled Data and Training Time -- A Semi-Supervised Bayesian Neural Network Approach [3.26805553822503]
制約のある最適化問題は、在庫や電力網などの様々な工学システムで発生する。
標準ディープニューラルネットワーク(DNN)ベースの機械学習プロキシは、ラベル付きデータが不足し、トレーニング時間が制限された実用的な環境では有効ではない。
論文 参考訳(メタデータ) (2024-10-04T02:10:20Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。