論文の概要: Reinforcement Learning with Markov Risk Measures and Multipattern Risk Approximation
- arxiv url: http://arxiv.org/abs/2605.00654v1
- Date: Fri, 01 May 2026 13:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.969955
- Title: Reinforcement Learning with Markov Risk Measures and Multipattern Risk Approximation
- Title(参考訳): マルコフリスク対策とマルチパターンリスク近似を用いた強化学習
- Authors: Andrzej Ruszczynski, Tiangang Zhang,
- Abstract要約: ミニバッチ対策と呼ばれるマルコフコヒーレントリスク対策の特殊クラスを導入する。
また、線形システムのクラスを一般化する多パターンリスク-逆問題のクラスも定義する。
- 参考スコア(独自算出の注目度): 1.8047694351309203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For a risk-averse finite-horizon Markov Decision Problem, we introduce a special class of Markov coherent risk measures, called mini-batch measures. We also define the class of multipattern risk-averse problems that generalizes the class of linear systems. We use both concepts in a feature-based $Q$-learning method with multipattern $Q$-factor approximation and we prove a high-probability regret bound of $\mathcal{O}\big(H^2 N^H \sqrt{ K}\big)$, where $H$ is the horizon, $N$ is the mini-batch size, and $K$ is the number of episodes. We also propose an economical version of the $Q$-learning method that streamlines the policy evaluation (backward) step. The theoretical results are illustrated on a stochastic assignment problem and a short-horizon multi-armed bandit problem.
- Abstract(参考訳): リスク-逆有限水平マルコフ決定問題に対して、ミニバッチ測度と呼ばれるマルコフコヒーレントなリスク測度を特別に導入する。
また、線形システムのクラスを一般化する多パターンリスク-逆問題のクラスも定義する。
両概念をマルチパターンによるQ$-learning法とQ$-factor近似で用い、$\mathcal{O}\big(H^2 N^H \sqrt{K}\big)$の高確率後悔境界を証明し、$H$は地平線、$N$はミニバッチサイズ、$K$はエピソード数である。
また、政策評価(後進)のステップを効率化する$Q$-learning法の経済版も提案する。
理論的結果は確率的代入問題と短水平多重武装バンディット問題で説明される。
関連論文リスト
- Risk Estimation in a Markov Cost Process: Lower and Upper Bounds [3.1484174280822845]
我々はマルコフコストプロセスにおいて、無限水平割引コストのリスク対策を推定する問題に取り組む。
私たちが調査するリスク尺度には、分散、バリュー・アット・リスク(VaR)、条件付きバリュー・アット・リスク(CVaR)がある。
論文 参考訳(メタデータ) (2023-10-17T16:35:39Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits [81.60136088841948]
本稿では,時間軸における後悔を最小限に抑えるアルゴリズムを提案する。
提案アルゴリズムは,レコメンデーションシステムや交通機関などの分野に適用可能である。
論文 参考訳(メタデータ) (2023-01-31T03:49:00Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Risk-aware Stochastic Shortest Path [0.0]
マルコフ決定過程(MDP)における最短経路(SSP)に対するリスク認識制御の問題点について検討する。
本稿では,確立されたリスク尺度である条件付きリスク(CVaR)を最適化する。
論文 参考訳(メタデータ) (2022-03-03T10:59:54Z) - Efficient Online-Bandit Strategies for Minimax Learning Problems [21.300877551771197]
いくつかの学習問題は、例えば、実験的な分散ロバスト学習や、非標準集約的損失による最小化といった、min-max問題の解決に関係している。
具体的には、これらの問題は、モデルパラメータ$winmathcalW$と、トレーニングセットの実証分布$pinmathcalK$で学習を行う凸線型問題である。
効率的な手法を設計するために、オンライン学習アルゴリズムを(組合せ)帯域幅アルゴリズムと対戦させる。
論文 参考訳(メタデータ) (2021-05-28T16:01:42Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。