論文の概要: Gaussian Process Bandits with Aggregated Feedback
- arxiv url: http://arxiv.org/abs/2112.13029v1
- Date: Fri, 24 Dec 2021 11:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 14:39:11.980602
- Title: Gaussian Process Bandits with Aggregated Feedback
- Title(参考訳): 集合フィードバックをもつガウス過程帯域
- Authors: Mengyan Zhang, Russell Tsuchida, Cheng Soon Ong
- Abstract要約: 我々は,固定予算内で最高の武器を推薦する新たな設定の下で,連続兵器の盗賊問題を考える。
これは、正確な報酬を得るのが不可能または高価であるアプリケーションによって動機付けられ、サブセットを超える平均のような、集約された報酬やフィードバックが利用可能である。
本稿では,推奨アームの集合的フィードバックに関して,新たな簡単な後悔の概念を提案する。
- 参考スコア(独自算出の注目度): 8.667190358712062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the continuum-armed bandits problem, under a novel setting of
recommending the best arms within a fixed budget under aggregated feedback.
This is motivated by applications where the precise rewards are impossible or
expensive to obtain, while an aggregated reward or feedback, such as the
average over a subset, is available. We constrain the set of reward functions
by assuming that they are from a Gaussian Process and propose the Gaussian
Process Optimistic Optimisation (GPOO) algorithm. We adaptively construct a
tree with nodes as subsets of the arm space, where the feedback is the
aggregated reward of representatives of a node. We propose a new simple regret
notion with respect to aggregated feedback on the recommended arms. We provide
theoretical analysis for the proposed algorithm, and recover single point
feedback as a special case. We illustrate GPOO and compare it with related
algorithms on simulated data.
- Abstract(参考訳): 我々は,固定予算内で最高の武器を総括的フィードバックの下で推薦するという新しい設定の下で,連続武装バンディット問題を考える。
これは、正確な報酬を得るのが不可能または高価であるアプリケーションによって動機付けられ、サブセットを超える平均のような集約された報酬やフィードバックが利用可能である。
報奨関数の集合はガウス過程からのものであると仮定して制約し、ガウス過程最適化最適化(GPOO)アルゴリズムを提案する。
ノードをアーム空間のサブセットとする木を適応的に構築し、フィードバックがノードの代表者の報酬の集合である。
我々は,推奨する腕に対するフィードバックの集約に関して,新たな単純な後悔概念を提案する。
本稿では,提案アルゴリズムの理論的解析を行い,特別な場合として単一点フィードバックを復元する。
GPOOを例示し、シミュレーションデータの関連アルゴリズムと比較する。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Combinatorial Bandits for Maximum Value Reward Function under Max
Value-Index Feedback [9.771002043127728]
本稿では,最大値報酬関数に対する最大値と指数フィードバックに基づくマルチアームバンディット問題を考察する。
有限なサポートを持つ任意の分布にしたがって、アーム結果を持つ問題インスタンスに対して、アルゴリズムを提案し、後悔の束縛を与える。
我々のアルゴリズムは、$O(((k/Delta)log(T))$ distribution-dependent と $tildeO(sqrtT)$ distribution-independent regret を達成する。
論文 参考訳(メタデータ) (2023-05-25T14:02:12Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Finding Optimal Arms in Non-stochastic Combinatorial Bandits with
Semi-bandit Feedback and Finite Budget [6.759124697337311]
有限サンプリング予算制約の下では,半帯域フィードバックによる帯域幅問題を考える。
アクションは、一組のアームを選択し、選択されたセット内の各アームに対するフィードバックが受信される。
本稿では,アーム除去戦略の全スペクトルをカバーするのに適した汎用アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-09T14:36:05Z) - Risk-Aware Algorithms for Combinatorial Semi-Bandits [7.716156977428555]
半帯域フィードバック下でのマルチアームバンディット問題について検討する。
本稿では,最悪の場合の報酬のみを考慮したリスク尺度であるCVaR(Conditional Value-at-Risk)の最大化の問題を検討する。
本稿では,バンディットのスーパーアームから得られる報酬のCVaRを最大化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-02T11:29:43Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。