論文の概要: Multi-facet Contextual Bandits: A Neural Network Perspective
- arxiv url: http://arxiv.org/abs/2106.03039v1
- Date: Sun, 6 Jun 2021 05:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:51:58.793397
- Title: Multi-facet Contextual Bandits: A Neural Network Perspective
- Title(参考訳): multi-facet context bandits: a neural network perspective
- Authors: Yikun Ban, Jingrui He, Curtiss B. Cook
- Abstract要約: 本研究では,一面からユーザニーズを特徴付けるために,一群の盗賊を包含する多面的盗賊の新たな問題について検討する。
各ラウンドでは、与えられたユーザに対して、各バンディットから1つのアームを選択し、すべてのアームの組み合わせが最終的な報酬を最大化する。
この問題は、Eコマースやヘルスケアなどにおいてすぐに応用できる。
- 参考スコア(独自算出の注目度): 34.96188300126833
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contextual multi-armed bandit has shown to be an effective tool in
recommender systems. In this paper, we study a novel problem of multi-facet
bandits involving a group of bandits, each characterizing the users' needs from
one unique aspect. In each round, for the given user, we need to select one arm
from each bandit, such that the combination of all arms maximizes the final
reward. This problem can find immediate applications in E-commerce, healthcare,
etc. To address this problem, we propose a novel algorithm, named MuFasa, which
utilizes an assembled neural network to jointly learn the underlying reward
functions of multiple bandits. It estimates an Upper Confidence Bound (UCB)
linked with the expected reward to balance between exploitation and
exploration. Under mild assumptions, we provide the regret analysis of MuFasa.
It can achieve the near-optimal $\widetilde{ \mathcal{O}}((K+1)\sqrt{T})$
regret bound where $K$ is the number of bandits and $T$ is the number of played
rounds. Furthermore, we conduct extensive experiments to show that MuFasa
outperforms strong baselines on real-world data sets.
- Abstract(参考訳): コンテキスト多重武装バンディットはレコメンデーションシステムにおいて効果的なツールであることが示されている。
本稿では,一面的な側面からユーザのニーズを特徴付ける,一群の盗賊を含む多面的盗賊の新たな問題について検討する。
各ラウンドでは、与えられたユーザに対して、各バンディットから1つのアームを選択し、すべてのアームの組み合わせが最終的な報酬を最大化する。
この問題は、Eコマースやヘルスケアなどにすぐに応用できる。
この問題に対処するために,組立ニューラルネットワークを用いて複数の帯域の報酬関数を協調的に学習する,MuFasaという新しいアルゴリズムを提案する。
エクスプロイトと探査のバランスをとるために期待される報酬と結びついたアッパー信頼境界(UCB)を推定する。
軽微な仮定では、MuFasaの後悔の分析を提供する。
ほぼ最適の$\widetilde{ \mathcal{O}}((K+1)\sqrt{T})$ regret bound ここで$K$は盗賊の数、$T$は遊びラウンドの数である。
さらに、MuFasaが実世界のデータセット上で強いベースラインを上回ることを示す広範な実験を行った。
関連論文リスト
- Neural Combinatorial Clustered Bandits for Recommendation Systems [12.800116749927266]
深層ニューラルネットワークを用いて未知の報酬関数を推定する。
従来のニューラルネットワークとは違って、NeUClustはニューラルネットワークを使用してスーパーアームの報酬を推定し、スーパーアームを選択する。
Neuclustは、他の文脈行列やニューラルバンディットアルゴリズムよりも後悔と報奨を達成している。
論文 参考訳(メタデータ) (2024-10-18T16:37:28Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。
我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文 参考訳(メタデータ) (2023-04-25T09:31:20Z) - Optimal Algorithms for Latent Bandits with Cluster Structure [50.44722775727619]
本稿では,複数のユーザが存在するクラスタ構造を持つ潜伏包帯問題と関連するマルチアーム包帯問題とを考察する。
本稿では,潜伏クラスタ構造を利用して$widetildeO(sqrt(mathsfM+mathsfN)mathsfTの最小限の後悔を提供するLATTICEを提案する。
論文 参考訳(メタデータ) (2023-01-17T17:49:04Z) - Dueling Bandits: From Two-dueling to Multi-dueling [40.4378338001229]
エージェントが複数の選択肢を同時に比較し、最適な腕を選択することで後悔を最小限に抑える、一般的なマルチダウリングバンディット問題について検討する。
この設定は従来の二段バンディット問題を一般化し、複数の選択肢に対する主観的なフィードバックを含む現実世界の多くのアプリケーションを見つける。
論文 参考訳(メタデータ) (2022-11-16T22:00:54Z) - Contextual Combinatorial Multi-output GP Bandits with Group Constraints [11.317136648551537]
連合型多武装バンディット問題では、クライアントを保護するための最小限のプライバシー要件を満たしながら、世界的報酬を最大化することが主な目標である。
我々は、グループやアクションセットの変更によるコンテキスト的バンディットの設定を検討し、そこでは、類似のベースアームがグループに到着し、スーパーアームと呼ばれるベースアームのセットが各ラウンドで選択され、スーパーアームの報酬を最大化し、ベースアームが選択されたグループの報酬の制約を満たす。
次に、累積スーパーアーム報酬の最大化と充足のバランスをとる、Thresholded Combinatored upper Confidence Bounds (TCGP-UCB)と呼ばれる新しい二重UCBGPバンドアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-29T18:39:09Z) - Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。
まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。
我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文 参考訳(メタデータ) (2021-02-15T19:10:52Z) - Recurrent Submodular Welfare and Matroid Blocking Bandits [22.65352007353614]
最近の研究は、マルチアームバンディット問題(MAB)の研究に焦点をあてている。
我々は、任意のマトロイドに対して$ (1 - frac1e)$-approximation を得ることのできる新しいアルゴリズムのアイデアを開発した。
鍵となる要素は、相関的な(インターリーブされた)スケジューリング技術である。
論文 参考訳(メタデータ) (2021-01-30T21:51:47Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。