論文の概要: Incentivized Exploration of Non-Stationary Stochastic Bandits
- arxiv url: http://arxiv.org/abs/2403.10819v1
- Date: Sat, 16 Mar 2024 06:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:35:15.002812
- Title: Incentivized Exploration of Non-Stationary Stochastic Bandits
- Title(参考訳): 非定常確率帯域のインセンティブ付き探索
- Authors: Sourav Chakraborty, Lijun Chen,
- Abstract要約: 非定常報酬分布を持つマルチアーム・バンディット(MAB)問題に対するインセンティブ付き探索について検討した。
本研究では, 急激な変化と連続的な変化の2つの非定常環境を考察し, それぞれのインセンティブ付き探索アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.81595281525183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study incentivized exploration for the multi-armed bandit (MAB) problem with non-stationary reward distributions, where players receive compensation for exploring arms other than the greedy choice and may provide biased feedback on the reward. We consider two different non-stationary environments: abruptly-changing and continuously-changing, and propose respective incentivized exploration algorithms. We show that the proposed algorithms achieve sublinear regret and compensation over time, thus effectively incentivizing exploration despite the nonstationarity and the biased or drifted feedback.
- Abstract(参考訳): 本研究では,非定常報酬分布を用いたマルチアームバンディット(MAB)問題に対するインセンティブ付き探索について検討する。
本研究では, 急激な変化と連続的な変化の2つの非定常環境を考察し, それぞれのインセンティブ付き探索アルゴリズムを提案する。
提案アルゴリズムは,非定常性や偏りやドリフトフィードバックにも拘わらず,探索を効果的に動機付けることができることを示す。
関連論文リスト
- Diminishing Exploration: A Minimalist Approach to Piecewise Stationary Multi-Armed Bandits [17.02018075805672]
片側定常バンドイット問題は、報酬分布の急激な変化を考察する。
既存のアルゴリズムは、変化点の数に関する知識を$M$とするか、非常に高い計算複雑性を必要とする。
そこで本研究では,MM$に関する知識の必要をなくす,減少探索と呼ばれる新奇で汎用的な探索機構を提案する。
論文 参考訳(メタデータ) (2024-10-08T06:51:32Z) - An Adaptive Approach for Infinitely Many-armed Bandits under Generalized Rotting Constraints [29.596684377841182]
本研究では、休息状態において、アームの平均報酬が各プルで減少する可能性があるが、そうでなければ変化しない、無限に多くの武器を持つバンディット問題を考察する。
本稿では,ゆがみ報酬に起因するバイアスや分散トレードオフを管理するために,適応的なスライディングウィンドウを備えたUTBを利用するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:11:54Z) - Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Forced Exploration in Bandit Problems [12.13966146283641]
マルチアームバンディット(MAB)は古典的なシーケンシャルな決定問題である。
本稿では,報酬分布に関する情報を使わずに実装可能なマルチアームバンディットアルゴリズムを設計することを目的とする。
論文 参考訳(メタデータ) (2023-12-12T14:00:29Z) - Reward Imputation with Sketching for Contextual Batched Bandits [48.80803376405073]
コンテキストバッチバンドイット(Contextual batched bandit、CBB)は、各エピソードの最後に環境から報酬のバッチを観測する設定である。
CBBの既存のアプローチは、実行されていないアクションの報酬を無視し、フィードバック情報の未利用につながることが多い。
本研究では,未観測の報酬をスケッチを用いて完遂するSketched Policy Updating with Imputed Rewards (SPUIR)を提案する。
論文 参考訳(メタデータ) (2022-10-13T04:26:06Z) - Thompson Sampling on Asymmetric $\alpha$-Stable Bandits [0.0]
多腕バンディット問題は報酬分布を変化させることで提案した解を最適化することができる。
トンプソンサンプリングは、多武装バンディット問題を解決する一般的な方法である。
論文 参考訳(メタデータ) (2022-03-19T01:55:08Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Incentivizing Exploration in Linear Bandits under Information Gap [50.220743323750035]
線形バンディットにおけるミオピックユーザに対するインセンティブ探索の問題点について検討した。
長期報酬を最大化するために、システムは、ユーザに探索的な腕を引くインセンティブを与えるための補償を提供する。
論文 参考訳(メタデータ) (2021-04-08T16:01:56Z) - Incentivizing Exploration with Selective Data Disclosure [70.11902902106014]
効率的な探索を促すレコメンデーションシステムを提案し設計する。
エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。
フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
論文 参考訳(メタデータ) (2018-11-14T19:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。