論文の概要: Gaussian Process Classification Bandits
- arxiv url: http://arxiv.org/abs/2212.13157v1
- Date: Mon, 26 Dec 2022 13:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 15:11:06.179965
- Title: Gaussian Process Classification Bandits
- Title(参考訳): ガウス過程分類バンド
- Authors: Tatsuya Hayashi, Naoki Ito, Koji Tabata, Atsuyoshi Nakamura, Katsumasa
Fujita, Yoshinori Harada, Tamiki Komatsuzaki
- Abstract要約: 期待される報酬 f(x) を持つ d-次元実空間における点 x に対応する特別なバンドイット分類問題について検討する。
各種アーム選択ポリシーを用いて,この問題に対するフレームワークアルゴリズムを開発し,FCBおよびFTSVと呼ばれるポリシーを提案する。
- 参考スコア(独自算出の注目度): 1.32383730641561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification bandits are multi-armed bandit problems whose task is to
classify a given set of arms into either positive or negative class depending
on whether the rate of the arms with the expected reward of at least h is not
less than w for given thresholds h and w. We study a special classification
bandit problem in which arms correspond to points x in d-dimensional real space
with expected rewards f(x) which are generated according to a Gaussian process
prior. We develop a framework algorithm for the problem using various arm
selection policies and propose policies called FCB and FTSV. We show a smaller
sample complexity upper bound for FCB than that for the existing algorithm of
the level set estimation, in which whether f(x) is at least h or not must be
decided for every arm's x. Arm selection policies depending on an estimated
rate of arms with rewards of at least h are also proposed and shown to improve
empirical sample complexity. According to our experimental results, the
rate-estimation versions of FCB and FTSV, together with that of the popular
active learning policy that selects the point with the maximum variance,
outperform other policies for synthetic functions, and the version of FTSV is
also the best performer for our real-world dataset.
- Abstract(参考訳): 分類バンディット(英: classification bandit)とは、与えられた腕の組を、少なくともhの期待報酬を持つ腕の割合が与えられた閾値hとw以上であるか否かに応じて、正または負のクラスに分類することであるマルチアームのバンディット問題である。
w. ガウス過程に従って生成される期待報酬 f(x) を持つd-次元実空間の点 x に腕を対応させる特殊分類バンドイット問題について検討する。
各種アーム選択ポリシーを用いて,この問題に対するフレームワークアルゴリズムを開発し,FCBおよびFTSVと呼ばれるポリシーを提案する。
f(x) が少なくとも h であるか否かを各arm に対して決定しなければならないレベル集合推定の既存のアルゴリズムよりも、fcb のサンプル複雑性の上限が小さいことを示す。
x.少なくともhの報酬を伴う腕数の推定値に依存する腕選択ポリシーも提案され、経験的サンプル複雑さを改善することが示されている。
実験結果によると, FCB と FTSV の速度推定バージョンは,最大分散度でポイントを選択する人気能動学習ポリシーとともに,合成関数の他のポリシーよりも優れており,FTSV は実世界のデータセットにとって最高の演奏者でもある。
関連論文リスト
- An Algorithm for Fixed Budget Best Arm Identification with Combinatorial Exploration [3.9901365062418312]
我々は、K$$armed banditフレームワークにおける最適な腕識別問題を考察する。
エージェントは1つのアームではなく、各タイムスロットでアームのサブセットをプレイすることができる。
我々は、$log K$グループを構築し、最適なアームの存在を検出するための確率比テストを実行するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-03T15:10:08Z) - Online Clustering with Bandit Information [5.024813922014978]
固定信頼設定の下で,マルチアーム・バンディット・フレームワークにおけるオンラインクラスタリングの問題点について検討する。
本稿では,Average Tracking Bandit Online Clustering (ATBOC) という新しいアルゴリズムを導入する。
LUCBアルゴリズムにインスパイアされた、より効率的なLow and Upper Confidence BoundベースのBandit Online Clustering (LUCBBOC)を提案する。
論文 参考訳(メタデータ) (2025-01-20T11:39:09Z) - A General Framework for Clustering and Distribution Matching with Bandit Feedback [81.50716021326194]
我々は,帯域幅フィードバックを用いたクラスタリングと分散マッチング問題のための一般的なフレームワークを開発する。
誤り確率が$delta$を超えない任意のオンラインアルゴリズムに対して、平均アームプル数に基づいて漸近的でない下界を導出する。
我々の洗練された分析により、アルゴリズムの平均的なアームプル数が、$delta$が消えるにつれて、基本的限界に収束する速度に縛られる新しい現象が明らかになった。
論文 参考訳(メタデータ) (2024-09-08T12:19:12Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Contextual Combinatorial Multi-output GP Bandits with Group Constraints [11.317136648551537]
連合型多武装バンディット問題では、クライアントを保護するための最小限のプライバシー要件を満たしながら、世界的報酬を最大化することが主な目標である。
我々は、グループやアクションセットの変更によるコンテキスト的バンディットの設定を検討し、そこでは、類似のベースアームがグループに到着し、スーパーアームと呼ばれるベースアームのセットが各ラウンドで選択され、スーパーアームの報酬を最大化し、ベースアームが選択されたグループの報酬の制約を満たす。
次に、累積スーパーアーム報酬の最大化と充足のバランスをとる、Thresholded Combinatored upper Confidence Bounds (TCGP-UCB)と呼ばれる新しい二重UCBGPバンドアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-29T18:39:09Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Best Arm Identification for Cascading Bandits in the Fixed Confidence
Setting [81.70513857417106]
CascadeBAIを設計し、分析する。これは、$K$アイテムのベストセットを見つけるアルゴリズムである。
CascadeBAIの時間的複雑さの上限は、決定的な分析課題を克服することによって導かれる。
その結果,カスケードBAIの性能は,時間的複雑性の低い境界の導出により,いくつかの実践的状況において最適であることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T16:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。