Fugu-MT 論文翻訳(概要): Robust Q-Learning for finite ambiguity sets

論文の概要: Robust Q-Learning for finite ambiguity sets

arxiv url: http://arxiv.org/abs/2407.04259v1
Date: Fri, 5 Jul 2024 05:19:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 14:31:15.253120
Title: Robust Q-Learning for finite ambiguity sets
Title（参考訳）: 有限あいまい性集合に対するロバストQ-ラーニング
Authors: Cécile Decker, Julian Sester,
Abstract要約: 分布的に堅牢なマルコフ決定問題を解くための新しい$Q$-learningアルゴリズムを提案する。我々のアプローチは、ある基準測度の周りの球のあいまいさ集合を含むよく研究されたケースを越えている。
参考スコア（独自算出の注目度）: 2.3020018305241337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper we propose a novel $Q$-learning algorithm allowing to solve distributionally robust Markov decision problems for which the ambiguity set of probability measures can be chosen arbitrarily as long as it comprises only a finite amount of measures. Therefore, our approach goes beyond the well-studied cases involving ambiguity sets of balls around some reference measure with the distance to reference measure being measured with respect to the Wasserstein distance or the Kullback--Leibler divergence. Hence, our approach allows the applicant to create ambiguity sets better tailored to her needs and to solve the associated robust Markov decision problem via a $Q$-learning algorithm whose convergence is guaranteed by our main result. Moreover, we showcase in several numerical experiments the tractability of our approach.
Abstract（参考訳）: 本稿では,確率測度のあいまいさを任意に選択できる確率測度を,有限量の測度しか含まない限り,分布的に頑健なマルコフ決定問題を解くための新しい$Q$-learningアルゴリズムを提案する。したがって、Warsserstein 距離やKullback-Leibler の発散に関して測定される基準測度との距離の基準測度に関する、ある基準測度に関する球のあいまいさ集合に関するよく研究されたケースを超越する。したがって、本手法により、申請者は、彼女のニーズに合ったあいまいさセットを作成し、主要な結果によって収束が保証される$Q$-learningアルゴリズムによって、関連するロバストなマルコフ決定問題を解決することができる。さらに,本手法のトラクタビリティについていくつかの数値実験を行った。

関連論文リスト

Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題優雅にアマルガメートは、最小化とBAIを後悔している。エージェントの目標は、所定の信頼度で最高の腕を特定することである。二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文参考訳（メタデータ） (2024-09-27T16:46:02Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
On Bellman's principle of optimality and Reinforcement learning for safety-constrained Markov decision process [0.0]
安全強化学習の枠組みである安全制約付きマルコフ決定プロセスの最適性について検討する。データからラグランジアンを学習するための改良された$Q$-learningアルゴリズムを構築した。
論文参考訳（メタデータ） (2023-02-25T20:36:41Z)
Robust $Q$-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty [5.639904484784127]
分布的ロバストなマルコフ決定問題を解くために,新しい$Q$-learningアルゴリズムを提案する。提案アルゴリズムの収束性および最適制御問題の解法における分布ロバスト性の検討の利点を実証する。
論文参考訳（メタデータ） (2022-09-30T10:01:04Z)
Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文参考訳（メタデータ） (2022-01-21T02:46:57Z)
Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文参考訳（メタデータ） (2021-06-27T23:41:57Z)
Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文参考訳（メタデータ） (2021-06-05T09:16:28Z)
Approximating Euclidean by Imprecise Markov Decision Processes [3.0017241250121383]
我々は、ユークリッド過程が有限状態近似によって近似されるとき、どのような近似保証が得られるかを検討する。有限時間地平線上のコスト関数について、近似が任意に正確になることを示す。
論文参考訳（メタデータ） (2020-06-26T11:58:04Z)
High-Dimensional Robust Mean Estimation via Gradient Descent [73.61354272612752]
一定対向分数の存在下でのロバスト平均推定の問題は勾配降下によって解けることを示す。我々の研究は、近辺の非補題推定とロバスト統計の間の興味深い関係を確立する。
論文参考訳（メタデータ） (2020-05-04T10:48:04Z)
Finite-Time Analysis of Round-Robin Kullback-Leibler Upper Confidence Bounds for Optimal Adaptive Allocation with Multiple Plays and Markovian Rewards [10.66048003460524]
本稿では,複数の演奏とマルコフ報酬を含む古典的マルチアームバンディット問題の拡張について検討する。この問題に対処するために、各段階において、全てのアームのサンプル手段からの情報と、ラウンドロビン方式で選択された単一アームのクルバック・リーバー上信頼境界とを結合する適応的アロケーションルールを検討する。
論文参考訳（メタデータ） (2020-01-30T08:09:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。