論文の概要: Risk averse non-stationary multi-armed bandits
- arxiv url: http://arxiv.org/abs/2109.13977v1
- Date: Tue, 28 Sep 2021 18:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:48:30.228386
- Title: Risk averse non-stationary multi-armed bandits
- Title(参考訳): リスク・アバース非定常多武装包帯
- Authors: Leo Benac and Fr\'ed\'eric Godin
- Abstract要約: 本稿では,非定常損失の場合の多武装包帯問題に対処する。
非定常損失の存在下で, この目的関数に対して2つの推定法を提案する。
このような推定は、エプシロングレーディポリシーのような古典的なアーム選択手法に組み込むことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the risk averse multi-armed bandits problem when incurred
losses are non-stationary. The conditional value-at-risk (CVaR) is used as the
objective function. Two estimation methods are proposed for this objective
function in the presence of non-stationary losses, one relying on a weighted
empirical distribution of losses and another on the dual representation of the
CVaR. Such estimates can then be embedded into classic arm selection methods
such as epsilon-greedy policies. Simulation experiments assess the performance
of the arm selection algorithms based on the two novel estimation approaches,
and such policies are shown to outperform naive benchmarks not taking
non-stationarity into account.
- Abstract(参考訳): 本稿では,非定常損失の場合の多武装包帯問題に対処する。
目的関数として条件付き値-at-risk(CVaR)を用いる。
この目的関数に対して,非定常損失が存在する場合,損失の重み付き経験分布とcvarの双対表現に依存する2つの推定法が提案されている。
このような推定は、エプシロングレーディポリシーのような古典的なアーム選択手法に組み込むことができる。
シミュレーション実験は2つの新しい推定手法に基づいてアーム選択アルゴリズムの性能を評価し、非定常性を考慮していないナイーブなベンチマークを上回った。
関連論文リスト
- Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - On the Connection between $L_p$ and Risk Consistency and its
Implications on Regularized Kernel Methods [0.0]
本研究の目的は,リスク一貫性と損失関数のより広いクラスに対する$L_p$一貫性の密接な関係を確立することである。
この接続をシフトした損失関数に転送しようとする試みは、このシフトが、基礎となる確率測度で必要とされる仮定を、他の多くの結果と同じ程度に減らさないことを驚くほど明らかにしている。
論文 参考訳(メタデータ) (2023-03-27T13:51:56Z) - Risk-aware linear bandits with convex loss [0.0]
提案手法は, 線形帯域幅の一般化に類似した, 最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。
このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを許すことで緩和することができる。
論文 参考訳(メタデータ) (2022-09-15T09:09:53Z) - Risk Consistent Multi-Class Learning from Label Proportions [64.0125322353281]
本研究は,バッグにトレーニングインスタンスを提供するMCLLP設定によるマルチクラス学習に対処する。
既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバッグワイズな制約を課している。
経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T03:49:04Z) - Risk-Averse No-Regret Learning in Online Convex Games [19.4481913405231]
リスク回避エージェントを備えたオンラインゲームは,コストの大幅な増大のリスクを最小限に抑える最適な決定を学習することを目的としている。
コスト関数の分布は一般に観測不可能なすべてのエージェントの作用に依存するため、コストの条件付値(CVaR)の計算は困難である。
CVaR値を用いて計算したCVaR勾配の1点ゼロ次推定に依存する新しいオンラインリスク逆学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-16T21:36:47Z) - Off-Policy Risk Assessment in Contextual Bandits [32.97618081988295]
多くの共通函数を推定するLipschitzリスク関数のクラスを紹介します。
リプシッツリスク汎関数では、オフポリシー推定の誤差は、報酬の累積分布関数(cdf)のオフポリシー推定の誤差によって制限される。
我々は,対象政策の報酬のCDFを推定し,リスクのプラグイン推定を生成するアルゴリズムであるOff-Policy Risk Assessment (OPRA)を提案する。
論文 参考訳(メタデータ) (2021-04-18T23:27:40Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。