論文の概要: Neural Combinatorial Clustered Bandits for Recommendation Systems
- arxiv url: http://arxiv.org/abs/2410.14586v1
- Date: Fri, 18 Oct 2024 16:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:26.293233
- Title: Neural Combinatorial Clustered Bandits for Recommendation Systems
- Title(参考訳): 推薦システムのためのニューラルコンビネーショナルクラスタリングバンド
- Authors: Baran Atalar, Carlee Joe-Wong,
- Abstract要約: 深層ニューラルネットワークを用いて未知の報酬関数を推定する。
従来のニューラルネットワークとは違って、NeUClustはニューラルネットワークを使用してスーパーアームの報酬を推定し、スーパーアームを選択する。
Neuclustは、他の文脈行列やニューラルバンディットアルゴリズムよりも後悔と報奨を達成している。
- 参考スコア(独自算出の注目度): 12.800116749927266
- License:
- Abstract: We consider the contextual combinatorial bandit setting where in each round, the learning agent, e.g., a recommender system, selects a subset of "arms," e.g., products, and observes rewards for both the individual base arms, which are a function of known features (called "context"), and the super arm (the subset of arms), which is a function of the base arm rewards. The agent's goal is to simultaneously learn the unknown reward functions and choose the highest-reward arms. For example, the "reward" may represent a user's probability of clicking on one of the recommended products. Conventional bandit models, however, employ restrictive reward function models in order to obtain performance guarantees. We make use of deep neural networks to estimate and learn the unknown reward functions and propose Neural UCB Clustering (NeUClust), which adopts a clustering approach to select the super arm in every round by exploiting underlying structure in the context space. Unlike prior neural bandit works, NeUClust uses a neural network to estimate the super arm reward and select the super arm, thus eliminating the need for a known optimization oracle. We non-trivially extend prior neural combinatorial bandit works to prove that NeUClust achieves $\widetilde{O}\left(\widetilde{d}\sqrt{T}\right)$ regret, where $\widetilde{d}$ is the effective dimension of a neural tangent kernel matrix, $T$ the number of rounds. Experiments on real world recommendation datasets show that NeUClust achieves better regret and reward than other contextual combinatorial and neural bandit algorithms.
- Abstract(参考訳): 各ラウンドにおいて、学習エージェント、eg、レコメンダシステム、eg、商品のサブセットを選択し、既知の特徴(「コンテキスト」と呼ばれる)の関数である個々のベースアームと、ベースアームの報酬の関数であるスーパーアーム(アームのサブセット)の両方に対する報酬を観察するコンテキスト結合バンドセットを考える。
エージェントの目標は、未知の報酬関数を同時に学習し、最上位の武器を選択することである。
例えば、リワード(reward)はユーザーが推奨商品の1つをクリックする確率を表す。
しかし、従来のバンディットモデルでは、性能保証を得るために制限的な報酬関数モデルを採用している。
我々は、深層ニューラルネットワークを用いて未知の報酬関数を推定し、学習し、コンテキスト空間の基盤構造を利用して、各ラウンドでスーパーアームを選択するクラスタリングアプローチを採用するNeuclust(Neuclust)を提案する。
従来のニューラルネットワークとは異なり、NeUClustはニューラルネットワークを使用してスーパーアームの報酬を推定し、スーパーアームを選択する。
我々は、NeUClustが$\widetilde{O}\left(\widetilde{d}\sqrt{T}\right)$ regret, ここで、$\widetilde{d}$は神経接核行列の有効次元、$T$はラウンド数であることを示すために、前回の神経結合包帯を非自明に拡張する。
実世界のレコメンデーションデータセットの実験は、NeUClustが他のコンテキスト組合せおよびニューラルバンディットアルゴリズムよりも後悔と報酬を達成していることを示している。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Combinatorial Neural Bandits [10.463365653675694]
学習エージェントが各ラウンドでアームのサブセットを選択し、そのスコアに応じて選択したアームのフィードバックを受け取るというコンテキスト的盗聴問題を考える。
アルゴリズムを提案する: Combinatorial Neural UCB(textttCN-UCB)と Combinatorial Thompson Sampling(textttCN-TS$)。
論文 参考訳(メタデータ) (2023-05-31T23:27:58Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - Contextual Combinatorial Multi-output GP Bandits with Group Constraints [11.317136648551537]
連合型多武装バンディット問題では、クライアントを保護するための最小限のプライバシー要件を満たしながら、世界的報酬を最大化することが主な目標である。
我々は、グループやアクションセットの変更によるコンテキスト的バンディットの設定を検討し、そこでは、類似のベースアームがグループに到着し、スーパーアームと呼ばれるベースアームのセットが各ラウンドで選択され、スーパーアームの報酬を最大化し、ベースアームが選択されたグループの報酬の制約を満たす。
次に、累積スーパーアーム報酬の最大化と充足のバランスをとる、Thresholded Combinatored upper Confidence Bounds (TCGP-UCB)と呼ばれる新しい二重UCBGPバンドアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-29T18:39:09Z) - EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits [52.98326168071513]
EE-Netは、新しい探索戦略を持つニューラルネットワークベースのバンドイットアプローチである。
EE-Net が $mathcalO(sqrtTlog T)$ regret を達成することを示す。
論文 参考訳(メタデータ) (2021-10-07T04:12:36Z) - Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。
まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。
我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文 参考訳(メタデータ) (2021-02-15T19:10:52Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。