論文の概要: Gaussian Process Classification Bandits
- arxiv url: http://arxiv.org/abs/2212.13157v1
- Date: Mon, 26 Dec 2022 13:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 15:11:06.179965
- Title: Gaussian Process Classification Bandits
- Title(参考訳): ガウス過程分類バンド
- Authors: Tatsuya Hayashi, Naoki Ito, Koji Tabata, Atsuyoshi Nakamura, Katsumasa
Fujita, Yoshinori Harada, Tamiki Komatsuzaki
- Abstract要約: 期待される報酬 f(x) を持つ d-次元実空間における点 x に対応する特別なバンドイット分類問題について検討する。
各種アーム選択ポリシーを用いて,この問題に対するフレームワークアルゴリズムを開発し,FCBおよびFTSVと呼ばれるポリシーを提案する。
- 参考スコア(独自算出の注目度): 1.32383730641561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification bandits are multi-armed bandit problems whose task is to
classify a given set of arms into either positive or negative class depending
on whether the rate of the arms with the expected reward of at least h is not
less than w for given thresholds h and w. We study a special classification
bandit problem in which arms correspond to points x in d-dimensional real space
with expected rewards f(x) which are generated according to a Gaussian process
prior. We develop a framework algorithm for the problem using various arm
selection policies and propose policies called FCB and FTSV. We show a smaller
sample complexity upper bound for FCB than that for the existing algorithm of
the level set estimation, in which whether f(x) is at least h or not must be
decided for every arm's x. Arm selection policies depending on an estimated
rate of arms with rewards of at least h are also proposed and shown to improve
empirical sample complexity. According to our experimental results, the
rate-estimation versions of FCB and FTSV, together with that of the popular
active learning policy that selects the point with the maximum variance,
outperform other policies for synthetic functions, and the version of FTSV is
also the best performer for our real-world dataset.
- Abstract(参考訳): 分類バンディット(英: classification bandit)とは、与えられた腕の組を、少なくともhの期待報酬を持つ腕の割合が与えられた閾値hとw以上であるか否かに応じて、正または負のクラスに分類することであるマルチアームのバンディット問題である。
w. ガウス過程に従って生成される期待報酬 f(x) を持つd-次元実空間の点 x に腕を対応させる特殊分類バンドイット問題について検討する。
各種アーム選択ポリシーを用いて,この問題に対するフレームワークアルゴリズムを開発し,FCBおよびFTSVと呼ばれるポリシーを提案する。
f(x) が少なくとも h であるか否かを各arm に対して決定しなければならないレベル集合推定の既存のアルゴリズムよりも、fcb のサンプル複雑性の上限が小さいことを示す。
x.少なくともhの報酬を伴う腕数の推定値に依存する腕選択ポリシーも提案され、経験的サンプル複雑さを改善することが示されている。
実験結果によると, FCB と FTSV の速度推定バージョンは,最大分散度でポイントを選択する人気能動学習ポリシーとともに,合成関数の他のポリシーよりも優れており,FTSV は実世界のデータセットにとって最高の演奏者でもある。
関連論文リスト
- Representative Arm Identification: A fixed confidence approach to identify cluster representatives [7.459521930846415]
マルチアームバンディット(MAB)フレームワークにおける代表腕識別問題について検討する。
RAI問題は、最高の腕や、上位の$K$から$M$を識別するなど、いくつかのよく研究されたMAB問題としてカバーされている。
本稿では,信頼区間の概念に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-26T11:47:52Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Contextual Combinatorial Multi-output GP Bandits with Group Constraints [11.317136648551537]
連合型多武装バンディット問題では、クライアントを保護するための最小限のプライバシー要件を満たしながら、世界的報酬を最大化することが主な目標である。
我々は、グループやアクションセットの変更によるコンテキスト的バンディットの設定を検討し、そこでは、類似のベースアームがグループに到着し、スーパーアームと呼ばれるベースアームのセットが各ラウンドで選択され、スーパーアームの報酬を最大化し、ベースアームが選択されたグループの報酬の制約を満たす。
次に、累積スーパーアーム報酬の最大化と充足のバランスをとる、Thresholded Combinatored upper Confidence Bounds (TCGP-UCB)と呼ばれる新しい二重UCBGPバンドアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-29T18:39:09Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Thompson Sampling for Bandits with Clustered Arms [7.237493755167875]
理論的および実験的に、与えられたクラスタ構造をどのように活用すれば、後悔と計算コストを大幅に改善できるかを示す。
我々のアルゴリズムは、以前に提案されたクラスタ化された腕を持つバンディットのアルゴリズムと比較してよく機能する。
論文 参考訳(メタデータ) (2021-09-06T08:58:01Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z) - Best Arm Identification for Cascading Bandits in the Fixed Confidence
Setting [81.70513857417106]
CascadeBAIを設計し、分析する。これは、$K$アイテムのベストセットを見つけるアルゴリズムである。
CascadeBAIの時間的複雑さの上限は、決定的な分析課題を克服することによって導かれる。
その結果,カスケードBAIの性能は,時間的複雑性の低い境界の導出により,いくつかの実践的状況において最適であることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T16:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。