論文の概要: A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits
- arxiv url: http://arxiv.org/abs/2310.19821v1
- Date: Tue, 24 Oct 2023 19:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:28:44.348773
- Title: A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits
- Title(参考訳): 非定常確率多元帯域に対するリスク回避フレームワーク
- Authors: Reda Alami, Mohammed Mahfoud, Mastane Achab
- Abstract要約: 医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a typical stochastic multi-armed bandit problem, the objective is often to
maximize the expected sum of rewards over some time horizon $T$. While the
choice of a strategy that accomplishes that is optimal with no additional
information, it is no longer the case when provided additional
environment-specific knowledge. In particular, in areas of high volatility like
healthcare or finance, a naive reward maximization approach often does not
accurately capture the complexity of the learning problem and results in
unreliable solutions. To tackle problems of this nature, we propose a framework
of adaptive risk-aware strategies that operate in non-stationary environments.
Our framework incorporates various risk measures prevalent in the literature to
map multiple families of multi-armed bandit algorithms into a risk-sensitive
setting. In addition, we equip the resulting algorithms with the Restarted
Bayesian Online Change-Point Detection (R-BOCPD) algorithm and impose a
(tunable) forced exploration strategy to detect local (per-arm) switches. We
provide finite-time theoretical guarantees and an asymptotic regret bound of
order $\tilde O(\sqrt{K_T T})$ up to time horizon $T$ with $K_T$ the total
number of change-points. In practice, our framework compares favorably to the
state-of-the-art in both synthetic and real-world environments and manages to
perform efficiently with respect to both risk-sensitivity and non-stationarity.
- Abstract(参考訳): 典型的な確率的多腕バンディット問題(英語版)では、しばしば与えられた報酬の合計を最大化することが目的である。
追加情報なしで最適な戦略が選択される一方で、追加の環境固有の知識を提供する場合、もはやそうではない。
特に、医療や金融のような高ボラティリティの分野では、単純報酬の最大化アプローチは、学習問題の複雑さを正確に捉えておらず、信頼性の低いソリューションをもたらすことが多い。
そこで本研究では,非定常環境で動作する適応型リスクアウェア戦略の枠組みを提案する。
本手法は,多機能バンディットアルゴリズムの複数のファミリーをリスクに敏感な設定にマップするために,文献に広く普及する様々なリスク対策を取り入れている。
さらに、得られたアルゴリズムをRestarted Bayesian Online Change-Point Detection (R-BOCPD)アルゴリズムと組み合わせ、局所的な(アームごとの)スイッチを検出するために(可変な)探索戦略を課す。
我々は、有限時間理論的保証と漸近的後悔の束縛である$\tilde o(\sqrt{k_t t})$ up to time horizon $t$ と$k_t$ を提供する。
実際に,本フレームワークは,合成環境と実環境の両方における最先端技術と比較し,リスク感受性と非定常性の両方に関して効率よく機能する。
関連論文リスト
- Planning and Learning in Risk-Aware Restless Multi-Arm Bandit Problem [4.178382980763478]
レスレス・マルチアーム・バンディットでは、中央エージェントは複数のバンドイット(アーム)に限られたリソースを最適に分散させる。
本研究では,リスク・アウェアネスを組み込むことにより,従来のレスレスト・マルチアーム・バンディット問題をリスクニュートラル目標に一般化する。
我々は、リスク認識対象の指標可能性条件を確立し、Whittleインデックスに基づくソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-30T13:59:30Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.67349734180445]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。
ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文 参考訳(メタデータ) (2023-08-01T02:07:47Z) - Stability-penalty-adaptive follow-the-regularized-leader: Sparsity,
game-dependency, and best-of-both-worlds [46.30750729936261]
FTRL(Follow-the-regularized-leader)は近年,バンドイット問題における適応性獲得の最も有望なアプローチの1つである。
我々は3種類の適応性を持ついくつかのアルゴリズムを確立する:空間性、ゲーム依存性、およびベスト・オブ・ボス・ワールド(BOBW)である。
論文 参考訳(メタデータ) (2023-05-26T23:20:48Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - On the Convergence and Optimality of Policy Gradient for Markov Coherent
Risk [32.97618081988295]
本稿では,学習方針の準最適性に厳密な上限を与え,その目的の非線形性とリスク回避の度合いへの依存性を特徴付ける。
従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。
論文 参考訳(メタデータ) (2021-03-04T04:11:09Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。