論文の概要: Forced Exploration in Bandit Problems
- arxiv url: http://arxiv.org/abs/2312.07285v1
- Date: Tue, 12 Dec 2023 14:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:49:01.941976
- Title: Forced Exploration in Bandit Problems
- Title(参考訳): バンディット問題における強制探索
- Authors: Han Qi, Fei Guo, Li Zhu
- Abstract要約: マルチアームバンディット(MAB)は古典的なシーケンシャルな決定問題である。
本稿では,報酬分布に関する情報を使わずに実装可能なマルチアームバンディットアルゴリズムを設計することを目的とする。
- 参考スコア(独自算出の注目度): 12.13966146283641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-armed bandit(MAB) is a classical sequential decision problem. Most
work requires assumptions about the reward distribution (e.g., bounded), while
practitioners may have difficulty obtaining information about these
distributions to design models for their problems, especially in non-stationary
MAB problems. This paper aims to design a multi-armed bandit algorithm that can
be implemented without using information about the reward distribution while
still achieving substantial regret upper bounds. To this end, we propose a
novel algorithm alternating between greedy rule and forced exploration. Our
method can be applied to Gaussian, Bernoulli and other subgaussian
distributions, and its implementation does not require additional information.
We employ a unified analysis method for different forced exploration strategies
and provide problem-dependent regret upper bounds for stationary and
piecewise-stationary settings. Furthermore, we compare our algorithm with
popular bandit algorithms on different reward distributions.
- Abstract(参考訳): マルチアームバンディット(MAB)は古典的な逐次決定問題である。
ほとんどの研究は報酬分布(例えば有界)に関する仮定を必要とするが、実践者はこれらの分布に関する情報を得るのが困難であり、問題のモデル、特に非定常MAB問題の設計を行う。
本稿では,報酬分布に関する情報を使わずに実装できるマルチアームバンディットアルゴリズムを設計することを目的としている。
そこで本研究では,欲求規則と強制探索を交互に行う新しいアルゴリズムを提案する。
本手法はガウス分布,ベルヌーイ分布,その他のガウス分布に適用でき,追加情報を必要としない。
我々は,異なる強制探索戦略のための統一的な分析手法を採用し,定常的および区分的定常的設定に対して問題依存的な後悔の上限を提供する。
さらに,提案アルゴリズムを,報酬分布の異なる一般的な帯域幅アルゴリズムと比較した。
関連論文リスト
- Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Implicitly normalized forecaster with clipping for linear and non-linear
heavy-tailed multi-armed bandits [85.27420062094086]
Implicitly Normalized Forecaster (INF) は、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。
重み付き設定のMAB問題に対するクリッピング(INFclip)を用いたINFの新バージョン"Implicitly Normalized Forecaster"を提案する。
INFclipは線形重み付きMAB問題に対して最適であり、非線形問題に対して有効であることを示す。
論文 参考訳(メタデータ) (2023-05-11T12:00:43Z) - Thompson Sampling on Asymmetric $\alpha$-Stable Bandits [0.0]
多腕バンディット問題は報酬分布を変化させることで提案した解を最適化することができる。
トンプソンサンプリングは、多武装バンディット問題を解決する一般的な方法である。
論文 参考訳(メタデータ) (2022-03-19T01:55:08Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Towards Fundamental Limits of Multi-armed Bandits with Random Walk
Feedback [27.153454425433296]
我々は,未知かつ潜在的に変化するグラフにおいて,アームがノードであるような新しいマルチアーマッド・バンドイット(MAB)問題を考える。
本研究は, 軌跡と逆向きの設定の両方を研究することによって, この問題の包括的理解を提供する。
論文 参考訳(メタデータ) (2020-11-03T03:21:22Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。