論文の概要: Stochastic Rising Bandits
- arxiv url: http://arxiv.org/abs/2212.03798v1
- Date: Wed, 7 Dec 2022 17:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:22:39.580749
- Title: Stochastic Rising Bandits
- Title(参考訳): 確率的ライジングバンド
- Authors: Alberto Maria Metelli, Francesco Trov\`o, Matteo Pirola, Marcello
Restelli
- Abstract要約: 本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。
この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
- 参考スコア(独自算出の注目度): 40.32303434592863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is in the field of stochastic Multi-Armed Bandits (MABs), i.e.,
those sequential selection techniques able to learn online using only the
feedback given by the chosen option (a.k.a. arm). We study a particular case of
the rested and restless bandits in which the arms' expected payoff is
monotonically non-decreasing. This characteristic allows designing specifically
crafted algorithms that exploit the regularity of the payoffs to provide tight
regret bounds. We design an algorithm for the rested case (R-ed-UCB) and one
for the restless case (R-less-UCB), providing a regret bound depending on the
properties of the instance and, under certain circumstances, of
$\widetilde{\mathcal{O}}(T^{\frac{2}{3}})$. We empirically compare our
algorithms with state-of-the-art methods for non-stationary MABs over several
synthetically generated tasks and an online model selection problem for a
real-world dataset. Finally, using synthetic and real-world data, we illustrate
the effectiveness of the proposed approaches compared with state-of-the-art
algorithms for the non-stationary bandits.
- Abstract(参考訳): 本稿では,確率的多腕バンディット (mabs) の分野において,選択されたオプション (arm) によるフィードバックのみを用いてオンライン学習が可能な逐次的選択手法について述べる。
腕の期待報酬が単調に減少しない、安静で安静な包帯の特定の事例について検討した。
この特徴は、支払いの規則性を利用して厳密な後悔の限界を与える特別に作られたアルゴリズムを設計することを可能にする。
残りのケース (R-ed-UCB) と、レスレスケース (R-less-UCB) のためのアルゴリズムを設計し、インスタンスの特性と、ある状況下では$\widetilde{\mathcal{O}}(T^{\frac{2}{3}})$に対して後悔の意を与える。
実世界データセットのオンラインモデル選択問題と,複数の合成タスクにおける非定常mabの最先端手法との比較を行った。
最後に, 合成および実世界のデータを用いて, 非定常バンディットに対する最先端アルゴリズムと比較し, 提案手法の有効性を示す。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Discrete Choice Multi-Armed Bandits [0.0]
本稿では,個別選択モデルのカテゴリとオンライン学習とマルチアームバンディットアルゴリズムの領域の関連性を確立する。
我々は、Exp3アルゴリズムを特定のケースとして包含して、包括的アルゴリズム群に対するサブ線形後悔境界を提供する。
一般化されたネストロジットモデルからインスピレーションを得た,対向多重武装バンディットアルゴリズムの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-10-01T03:41:04Z) - Stochastic Contextual Dueling Bandits under Linear Stochastic
Transitivity Models [25.336599480692122]
我々は,コンテキスト情報を用いた決闘バンディット問題における後悔の最小化タスクについて検討する。
本稿では,フィードバックプロセスの模倣に基づく計算効率のよいアルゴリズムである$texttCoLSTIM$を提案する。
本実験は,CoLSTモデルの特殊事例に対する最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-09T17:44:19Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Recurrent Submodular Welfare and Matroid Blocking Bandits [22.65352007353614]
最近の研究は、マルチアームバンディット問題(MAB)の研究に焦点をあてている。
我々は、任意のマトロイドに対して$ (1 - frac1e)$-approximation を得ることのできる新しいアルゴリズムのアイデアを開発した。
鍵となる要素は、相関的な(インターリーブされた)スケジューリング技術である。
論文 参考訳(メタデータ) (2021-01-30T21:51:47Z) - Restless-UCB, an Efficient and Low-complexity Algorithm for Online
Restless Bandits [61.490254407420906]
我々は、各腕の状態がマルコフ連鎖に従って進化するオンラインレス・バンディット問題について研究する。
本研究では,探索研究の枠組みに従う学習方針であるReestless-UCBを提案する。
論文 参考訳(メタデータ) (2020-11-05T05:16:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。