論文の概要: Diminishing Exploration: A Minimalist Approach to Piecewise Stationary Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2410.05734v1
- Date: Tue, 8 Oct 2024 06:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 13:19:50.140526
- Title: Diminishing Exploration: A Minimalist Approach to Piecewise Stationary Multi-Armed Bandits
- Title(参考訳): 最小限のマルチアーマッドバンドへのミニマリストアプローチ
- Authors: Kuan-Ta Li, Ping-Chun Hsieh, Yu-Chih Huang,
- Abstract要約: 片側定常バンドイット問題は、報酬分布の急激な変化を考察する。
既存のアルゴリズムは、変化点の数に関する知識を$M$とするか、非常に高い計算複雑性を必要とする。
そこで本研究では,MM$に関する知識の必要をなくす,減少探索と呼ばれる新奇で汎用的な探索機構を提案する。
- 参考スコア(独自算出の注目度): 17.02018075805672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The piecewise-stationary bandit problem is an important variant of the multi-armed bandit problem that further considers abrupt changes in the reward distributions. The main theme of the problem is the trade-off between exploration for detecting environment changes and exploitation of traditional bandit algorithms. While this problem has been extensively investigated, existing works either assume knowledge about the number of change points $M$ or require extremely high computational complexity. In this work, we revisit the piecewise-stationary bandit problem from a minimalist perspective. We propose a novel and generic exploration mechanism, called diminishing exploration, which eliminates the need for knowledge about $M$ and can be used in conjunction with an existing change detection-based algorithm to achieve near-optimal regret scaling. Simulation results show that despite oblivious of $M$, equipping existing algorithms with the proposed diminishing exploration generally achieves better empirical regret than the traditional uniform exploration.
- Abstract(参考訳): ピースワイズ定常バンディット問題は、報酬分布の急激な変化を考察する多武装バンディット問題の重要な変種である。
問題の主なテーマは、環境変化を検出する探索と、従来のバンディットアルゴリズムの活用の間のトレードオフである。
この問題は広く研究されているが、既存の研究は変更点数に関する知識を$M$とするか、あるいは非常に高い計算複雑性を必要とする。
本研究では,ミニマリストの観点から,楽観的な帯域幅問題を再考する。
提案手法は,M$に関する知識を不要にし,既存の変化検出に基づくアルゴリズムと組み合わせて,ほぼ最適に後悔するスケーリングを実現することができる。
シミュレーションの結果は、$M(100万ドル)の難しさにもかかわらず、提案された探索の減少によって既存のアルゴリズムを取り入れることで、従来の一様探査よりも経験的な後悔を得られることを示している。
関連論文リスト
- Fixed-Budget Change Point Identification in Piecewise Constant Bandits [4.373803477995854]
本稿では,帯域フィードバックによる平均報酬関数の急激な変化を特定するために設計されたポリシーの非漸近解析を行う。
本研究では,大小の予算体制下で問題を調査し,両設定でエラー確率の低い境界を設定する。
本稿では,小規模・大規模両予算の両立に最適な適応型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-22T15:30:44Z) - MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Forced Exploration in Bandit Problems [12.13966146283641]
マルチアームバンディット(MAB)は古典的なシーケンシャルな決定問題である。
本稿では,報酬分布に関する情報を使わずに実装可能なマルチアームバンディットアルゴリズムを設計することを目的とする。
論文 参考訳(メタデータ) (2023-12-12T14:00:29Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - A Fast Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [55.2480439325792]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
本稿では,差分に基づく探索法 (CombGapE) アルゴリズムを提案する。
我々は,CombGapEアルゴリズムが,合成データセットと実世界のデータセットの両方において,既存の手法を大幅に上回っていることを数値的に示す。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Thompson Sampling on Asymmetric $\alpha$-Stable Bandits [0.0]
多腕バンディット問題は報酬分布を変化させることで提案した解を最適化することができる。
トンプソンサンプリングは、多武装バンディット問題を解決する一般的な方法である。
論文 参考訳(メタデータ) (2022-03-19T01:55:08Z) - On Slowly-varying Non-stationary Bandits [25.305949034527202]
我々は、ゆっくりと変化する性質を持つ非定常包帯の動的後悔を考察する。
我々は、ゆっくりと変化する非定常帯域に対して、最初のインスタンス依存後悔上限を確立する。
我々のアルゴリズムは基本的にミニマックス最適であることを示す。
論文 参考訳(メタデータ) (2021-10-25T12:56:19Z) - Hyper-parameter Tuning for the Contextual Bandit [22.721128745617076]
本稿では,線形報酬関数の設定によるコンテキスト的帯域問題における探索的エクスプロイトトレードオフの学習問題について検討する。
提案アルゴリズムは,観測された文脈に基づいて,適切な探索パラメータをオンラインで選択することを学ぶ。
ここでは,文脈的帯域幅アルゴリズムの最適探索を求めるために,帯域幅を用いた2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-04T17:20:19Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。