論文の概要: Planning and Learning in Risk-Aware Restless Multi-Arm Bandit Problem
- arxiv url: http://arxiv.org/abs/2410.23029v1
- Date: Wed, 30 Oct 2024 13:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:42.342601
- Title: Planning and Learning in Risk-Aware Restless Multi-Arm Bandit Problem
- Title(参考訳): リスクを意識したレストレスマルチアーム帯域問題における計画と学習
- Authors: Nima Akbarzadeh, Erick Delage, Yossiri Adulyasak,
- Abstract要約: レスレス・マルチアーム・バンディットでは、中央エージェントは複数のバンドイット(アーム)に限られたリソースを最適に分散させる。
本研究では,リスク・アウェアネスを組み込むことにより,従来のレスレスト・マルチアーム・バンディット問題をリスクニュートラル目標に一般化する。
我々は、リスク認識対象の指標可能性条件を確立し、Whittleインデックスに基づくソリューションを提供する。
- 参考スコア(独自算出の注目度): 4.178382980763478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In restless multi-arm bandits, a central agent is tasked with optimally distributing limited resources across several bandits (arms), with each arm being a Markov decision process. In this work, we generalize the traditional restless multi-arm bandit problem with a risk-neutral objective by incorporating risk-awareness. We establish indexability conditions for the case of a risk-aware objective and provide a solution based on Whittle index. In addition, we address the learning problem when the true transition probabilities are unknown by proposing a Thompson sampling approach and show that it achieves bounded regret that scales sublinearly with the number of episodes and quadratically with the number of arms. The efficacy of our method in reducing risk exposure in restless multi-arm bandits is illustrated through a set of numerical experiments.
- Abstract(参考訳): 静止しないマルチアームバンディットでは、中央のエージェントが複数のバンドイット(アーム)に限られたリソースを最適に分散させ、各アームはマルコフ決定プロセスである。
本研究では,リスク・アウェアネスを組み込むことにより,従来のレスレスト・マルチアーム・バンディット問題をリスクニュートラル目標に一般化する。
我々は、リスク認識対象の指標可能性条件を確立し、Whittleインデックスに基づくソリューションを提供する。
さらに,トンプソンサンプリング手法を提案することにより,真の遷移確率が不明な場合の学習問題に対処し,エピソード数とサブ線形にスケールし,アーム数と2次的にスケールする有界後悔を実現することを示す。
レスレスマルチアームバンディットにおけるリスク露光を低減する方法の有効性を数値実験により示す。
関連論文リスト
- Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - Semi-Parametric Batched Global Multi-Armed Bandits with Covariates [0.48342038441006807]
マルチアームバンディット(MAB)フレームワークは、シーケンシャルな意思決定に広く使われているアプローチである。
本稿では,コパラメトリックと腕間の共有パラメータを持つバッチバンドの半パラメトリックフレームワークを提案する。
Batched Single-Index Dynamic binning and Successive arm elimination (BIDS) というアルゴリズムでは、バッチ化された逐次アームの除去戦略を採用している。
論文 参考訳(メタデータ) (2025-03-01T17:23:55Z) - Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.67349734180445]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。
ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文 参考訳(メタデータ) (2023-08-01T02:07:47Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - Strategies for Safe Multi-Armed Bandits with Logarithmic Regret and Risk [45.87122314291089]
本研究は,安全リスク制約下でのマルチアームバンディット問題に対する,自然だが意外な未研究のアプローチについて検討する。
我々は、いかなる違反に対してもソフトに罰則を課すことにより、この安全制約を丸ごと強制する、この設定に対する擬似回帰を定式化する。
これは、総合的な意味でではなく、各ラウンドの安全を維持する必要がある臨床試験のようなシナリオに実践的に関係している。
論文 参考訳(メタデータ) (2022-04-01T22:08:03Z) - Reconciling Risk Allocation and Prevalence Estimation in Public Health
Using Batched Bandits [0.0]
多くの公衆衛生環境では、既知の脆弱な領域に資源を割り当てることと、問題の全体的な頻度について学ぶことに緊張感がある。
ドアツードアのCovid-19テストプログラムにインスパイアされた私たちは、多武装のバンディット戦略とサンプリング理論からの洞察を組み合わせて、リスクの高い地域へのリソースの割り当てを続けながら、正確な有病率推定を回復する方法を実証しました。
論文 参考訳(メタデータ) (2021-10-25T22:33:46Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Thompson Sampling for Gaussian Entropic Risk Bandits [0.0]
リスクは、その普遍的に合意された定義がないため、基本的な報酬の最大化目標を複雑にします。
我々は,このリスク尺度の下でのトンプソンサンプリングに基づくアルゴリズムの性能を,エントロピーリスク尺度 (er) で検討し,検討する。
論文 参考訳(メタデータ) (2021-05-14T17:01:02Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。
本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。
我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文 参考訳(メタデータ) (2020-06-17T04:23:18Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。