論文の概要: Risk-Averse No-Regret Learning in Online Convex Games
- arxiv url: http://arxiv.org/abs/2203.08957v1
- Date: Wed, 16 Mar 2022 21:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 07:02:25.435233
- Title: Risk-Averse No-Regret Learning in Online Convex Games
- Title(参考訳): オンライン凸ゲームにおけるリスク回避no-regret学習
- Authors: Zifan Wang, Yi Shen, Michael M. Zavlanos
- Abstract要約: リスク回避エージェントを備えたオンラインゲームは,コストの大幅な増大のリスクを最小限に抑える最適な決定を学習することを目的としている。
コスト関数の分布は一般に観測不可能なすべてのエージェントの作用に依存するため、コストの条件付値(CVaR)の計算は困難である。
CVaR値を用いて計算したCVaR勾配の1点ゼロ次推定に依存する新しいオンラインリスク逆学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 19.4481913405231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider an online stochastic game with risk-averse agents whose goal is
to learn optimal decisions that minimize the risk of incurring significantly
high costs. Specifically, we use the Conditional Value at Risk (CVaR) as a risk
measure that the agents can estimate using bandit feedback in the form of the
cost values of only their selected actions. Since the distributions of the cost
functions depend on the actions of all agents that are generally unobservable,
they are themselves unknown and, therefore, the CVaR values of the costs are
difficult to compute. To address this challenge, we propose a new online
risk-averse learning algorithm that relies on one-point zeroth-order estimation
of the CVaR gradients computed using CVaR values that are estimated by
appropriately sampling the cost functions. We show that this algorithm achieves
sub-linear regret with high probability. We also propose two variants of this
algorithm that improve performance. The first variant relies on a new sampling
strategy that uses samples from the previous iteration to improve the
estimation accuracy of the CVaR values. The second variant employs residual
feedback that uses CVaR values from the previous iteration to reduce the
variance of the CVaR gradient estimates. We theoretically analyze the
convergence properties of these variants and illustrate their performance on an
online market problem that we model as a Cournot game.
- Abstract(参考訳): リスク回避エージェントによるオンライン確率ゲームについて検討し,高いコストを発生させるリスクを最小限に抑える最適な意思決定を目標とする。
具体的には,リスクに対する条件付値(CVaR)を用いて,エージェントが選択した行動のコスト値の形で,帯域フィードバックを用いて見積もることができるようにした。
コスト関数の分布は一般に観測不可能なすべてのエージェントの作用に依存するため、それ自体は未知であるため、コストのCVaR値は計算が困難である。
この課題に対処するために,コスト関数を適切にサンプリングして推定したCVaR値を用いて計算したCVaR勾配の一点ゼロ次推定に依存する新しいオンラインリスク逆学習アルゴリズムを提案する。
このアルゴリズムが高確率で線形後悔を実現することを示す。
また,このアルゴリズムの性能を向上させる2つの変種を提案する。
最初のバリエーションは、CVaR値の推定精度を改善するために、以前のイテレーションからのサンプルを使用する新しいサンプリング戦略に依存している。
第2の変種は、CVaR勾配推定のばらつきを低減するために、前回の繰り返しからCVaR値を使用する残差フィードバックを用いる。
理論上,これらの変形の収束特性を解析し,クールノーゲームとしてモデル化したオンライン市場問題に対してその性能を示す。
関連論文リスト
- Risk-averse Learning with Non-Stationary Distributions [18.15046585146849]
本稿では,ランダムなコスト分布が時間とともに変化するリスク-逆オンライン最適化について検討する。
リスクの条件値(CVaR)をリスク尺度として用いたリスク逆目的関数を最小化する。
設計した学習アルゴリズムは,凸関数と凸関数の両方に対して高い確率で線形動的後悔を実現する。
論文 参考訳(メタデータ) (2024-04-03T18:16:47Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Forward-PECVaR Algorithm: Exact Evaluation for CVaR SSPs [1.347733333991357]
Conditional Value at Risk (CVaR)は、任意のレベルのリスクをモデリングできる基準である。
非一様コストでCVaR-SSPの定常ポリシーを正確に評価するアルゴリズムであるForward-PECVaRを提案する。
論文 参考訳(メタデータ) (2023-03-01T17:10:22Z) - A Zeroth-Order Momentum Method for Risk-Averse Online Convex Games [15.620924879200793]
エージェントのゴールは,コストが著しく高くなるリスクを最小限に抑えることにある。
CVaRを推定するためにバンドフィードバックを使用する際の大きな課題は、エージェントが自身のコスト値にしかアクセスできないことである。
本稿では,コスト値の履歴情報を完全に活用した,新たなリスク回避学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-06T22:28:34Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Bias-Corrected Peaks-Over-Threshold Estimation of the CVaR [2.552459629685159]
cvar(conditional value-at-risk)は、機械学習、金融、保険、エネルギーなどの分野で有用なリスク尺度である。
極めて極端なリスクを測定する場合,試料平均値のCVaR推定法はうまく動作しない。
この問題を緩和するために、CVaRはVaRよりも低い閾値で外挿することで推定することができる。
論文 参考訳(メタデータ) (2021-03-08T20:29:06Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Statistical Learning with Conditional Value at Risk [35.4968603057034]
本稿では,予測損失よりも損失の条件付き値付きリスク(CVaR)を用いて,学習アルゴリズムの性能を評価するリスク-逆統計学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-14T00:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。