Fugu-MT 論文翻訳(概要): Regret Bounds for Markov Decision Processes with Recursive Optimized Certainty Equivalents

論文の概要: Regret Bounds for Markov Decision Processes with Recursive Optimized Certainty Equivalents

arxiv url: http://arxiv.org/abs/2301.12601v1
Date: Mon, 30 Jan 2023 01:22:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 16:01:53.353201
Title: Regret Bounds for Markov Decision Processes with Recursive Optimized Certainty Equivalents
Title（参考訳）: 再帰的最適化された等価性を持つマルコフ決定過程の後悔境界
Authors: Wenhao Xu, Xuefeng Gao, Xuedong He
Abstract要約: 本稿では,新しいエピソード型リスク感応型強化学習法を提案する。本研究では,値反復と高信頼度境界に基づく効率的な学習アルゴリズムを設計する。我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。
参考スコア（独自算出の注目度）: 3.8980564330208662
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The optimized certainty equivalent (OCE) is a family of risk measures that cover important examples such as entropic risk, conditional value-at-risk and mean-variance models. In this paper, we propose a new episodic risk-sensitive reinforcement learning formulation based on tabular Markov decision processes with recursive OCEs. We design an efficient learning algorithm for this problem based on value iteration and upper confidence bound. We derive an upper bound on the regret of the proposed algorithm, and also establish a minimax lower bound. Our bounds show that the regret rate achieved by our proposed algorithm has optimal dependence on the number of episodes and the number of actions.
Abstract（参考訳）: 最適化された確実性等価(OCE)は、エントロピーリスク、条件付き値-リスク、平均分散モデルなどの重要な例をカバーするリスク尺度のファミリーである。本稿では,再帰的OCEを用いた表在的マルコフ決定過程に基づく,新しいエピソード型リスク感応型強化学習法を提案する。本研究では,値反復と高信頼境界に基づく効率的な学習アルゴリズムを設計する。提案アルゴリズムの残差に基づいて上界を導出するとともに,ミニマックス下界を確立する。我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。

関連論文リスト

Risk-Averse Total-Reward Reinforcement Learning [9.129584027640405]
リスク逆トータルリワードマルコフ決定プロセス(MDP)は、未公表の無限水平目標をモデル化し解決するための有望なフレームワークを提供する。エントロピーリスク測度(ERM)やエントロピーバリュー・アット・リスク(EVaR)のような既存のリスク測度のためのモデルベースのアルゴリズムは、小さな問題に対して有効であるが、遷移確率への完全なアクセスが必要である。本稿では,完全逆ERMとEVaRの目標に対して,コンバージェンスと性能保証を両立させるためのQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-26T18:10:51Z)
Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions [8.758206783988404]
コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習フレームワークを提案する。このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
論文参考訳（メタデータ） (2025-05-07T16:31:42Z)
Planning and Learning in Average Risk-aware MDPs [4.696083734269232]
我々はリスクニュートラルアルゴリズムを拡張し、より一般的なリスク対策のクラスに対応する。 RVIアルゴリズムとQラーニングアルゴリズムの両方が最適性に収束することが証明されている。弊社のアプローチは、エージェントの複雑なリスク認識に微調整されたポリシーの特定を可能にする。
論文参考訳（メタデータ） (2025-03-22T03:18:09Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Risk-sensitive Markov Decision Process and Learning under General Utility Functions [3.069335774032178]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。意思決定プロセス(MDP)の枠組みにおいて,意思決定者が累積報酬の汎用機能を最適化しようとするシナリオを考える。累積報酬の空間上でのエプシロン被覆を用いた修正値反復アルゴリズムを提案する。シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文参考訳（メタデータ） (2023-11-22T18:50:06Z)
Risk-aware linear bandits with convex loss [0.0]
提案手法は, 線形帯域幅の一般化に類似した, 最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを許すことで緩和することができる。
論文参考訳（メタデータ） (2022-09-15T09:09:53Z)
On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文参考訳（メタデータ） (2022-06-27T06:20:37Z)
Risk-aware Stochastic Shortest Path [0.0]
マルコフ決定過程(MDP)における最短経路(SSP)に対するリスク認識制御の問題点について検討する。本稿では,確立されたリスク尺度である条件付きリスク(CVaR)を最適化する。
論文参考訳（メタデータ） (2022-03-03T10:59:54Z)
A policy gradient approach for optimization of smooth risk measures [8.087699764574788]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-22T17:26:28Z)
A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文参考訳（メタデータ） (2021-02-26T13:48:49Z)
Constrained Risk-Averse Markov Decision Processes [18.467950783426947]
リスク目標と制約を動的に整合させたマルコフ決定プロセスのポリシー設計の問題点を考察する。制約付きリスク-逆問題より低いバウンドのマルコフポリシーを最適化した手法を提案する。これらの結果から, 制約付きMDPの線形プログラムを, 総割引コストと制約付きで一般化できることが示唆された。
論文参考訳（メタデータ） (2020-12-04T06:12:11Z)
Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文参考訳（メタデータ） (2020-11-16T15:53:22Z)
Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文参考訳（メタデータ） (2020-06-15T05:25:02Z)
Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2020-02-01T15:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。