論文の概要: A Zeroth-Order Momentum Method for Risk-Averse Online Convex Games
- arxiv url: http://arxiv.org/abs/2209.02838v1
- Date: Tue, 6 Sep 2022 22:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:20:18.318284
- Title: A Zeroth-Order Momentum Method for Risk-Averse Online Convex Games
- Title(参考訳): リスク回避型オンライン凸ゲームのゼロ次モーメント法
- Authors: Zifan Wang, Yi Shen, Zachary I. Bell, Scott Nivison, Michael M.
Zavlanos, Karl H. Johansson
- Abstract要約: エージェントのゴールは,コストが著しく高くなるリスクを最小限に抑えることにある。
CVaRを推定するためにバンドフィードバックを使用する際の大きな課題は、エージェントが自身のコスト値にしかアクセスできないことである。
本稿では,コスト値の履歴情報を完全に活用した,新たなリスク回避学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.620924879200793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider risk-averse learning in repeated unknown games where the goal of
the agents is to minimize their individual risk of incurring significantly high
cost. Specifically, the agents use the conditional value at risk (CVaR) as a
risk measure and rely on bandit feedback in the form of the cost values of the
selected actions at every episode to estimate their CVaR values and update
their actions. A major challenge in using bandit feedback to estimate CVaR is
that the agents can only access their own cost values, which, however, depend
on the actions of all agents. To address this challenge, we propose a new
risk-averse learning algorithm with momentum that utilizes the full historical
information on the cost values. We show that this algorithm achieves sub-linear
regret and matches the best known algorithms in the literature. We provide
numerical experiments for a Cournot game that show that our method outperforms
existing methods.
- Abstract(参考訳): エージェントの目的が,高いコストを発生させる個人のリスクを最小限に抑えることにある,未知のゲームを繰り返す場合のリスク回避学習を考える。
具体的には、リスク指標として条件付アット・リスク(CVaR)を使用し、各エピソードにおける選択されたアクションのコスト値の形式で、ビジットフィードバックに依存して、CVaR値を見積もり、アクションを更新する。
CVaRを推定するために帯域フィードバックを使用する際の大きな課題は、エージェントが自身のコスト値にしかアクセスできないことである。
この課題に対処するために,コスト値の履歴情報をフル活用したモーメント付きリスク逆学習アルゴリズムを提案する。
本稿では,このアルゴリズムが文中で最もよく知られたアルゴリズムと一致していることを示す。
我々はCournotゲームに対する数値実験を行い,提案手法が既存手法より優れていることを示す。
関連論文リスト
- SafeAR: Safe Algorithmic Recourse by Risk-Aware Policies [2.291948092032746]
本稿では,コストの変動を考慮したレコメンデーションポリシーの計算手法を提案する。
我々は,既存のデシダラタが高コストのリスクを捕捉できないことを示す。
論文 参考訳(メタデータ) (2023-08-23T18:12:11Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Risk-aware linear bandits with convex loss [0.0]
提案手法は, 線形帯域幅の一般化に類似した, 最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。
このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを許すことで緩和することができる。
論文 参考訳(メタデータ) (2022-09-15T09:09:53Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Averse No-Regret Learning in Online Convex Games [19.4481913405231]
リスク回避エージェントを備えたオンラインゲームは,コストの大幅な増大のリスクを最小限に抑える最適な決定を学習することを目的としている。
コスト関数の分布は一般に観測不可能なすべてのエージェントの作用に依存するため、コストの条件付値(CVaR)の計算は困難である。
CVaR値を用いて計算したCVaR勾配の1点ゼロ次推定に依存する新しいオンラインリスク逆学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-16T21:36:47Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Deep Reinforcement Learning for Equal Risk Pricing and Hedging under
Dynamic Expectile Risk Measures [1.2891210250935146]
そこで本稿では,非政治的なアクター批判型深層強化学習アルゴリズムにより,オプションに対する高品質な時間一貫したヘッジポリシーを同定できることを示す。
簡単なバニラオプションとよりエキゾチックなバスケットオプションの両方を含む数値実験により, 単純環境, ほぼ最適なヘッジポリシ, 高精度な価格で, かつ, 多様な成熟度を同時に生成できることが確認された。
全体として、リスクを後回しに評価した場合に、静的リスク測定によって生成された戦略を実際に上回ります。
論文 参考訳(メタデータ) (2021-09-09T02:52:06Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。