論文の概要: Online Clustering of Dueling Bandits
- arxiv url: http://arxiv.org/abs/2502.02079v1
- Date: Tue, 04 Feb 2025 07:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:45.033306
- Title: Online Clustering of Dueling Bandits
- Title(参考訳): デュエルバンドのオンラインクラスタリング
- Authors: Zhiyong Wang, Jiahang Sun, Mingze Kong, Jize Xie, Qinghua Hu, John C. S. Lui, Zhongxiang Dai,
- Abstract要約: 本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 59.09590979404303
- License:
- Abstract: The contextual multi-armed bandit (MAB) is a widely used framework for problems requiring sequential decision-making under uncertainty, such as recommendation systems. In applications involving a large number of users, the performance of contextual MAB can be significantly improved by facilitating collaboration among multiple users. This has been achieved by the clustering of bandits (CB) methods, which adaptively group the users into different clusters and achieve collaboration by allowing the users in the same cluster to share data. However, classical CB algorithms typically rely on numerical reward feedback, which may not be practical in certain real-world applications. For instance, in recommendation systems, it is more realistic and reliable to solicit preference feedback between pairs of recommended items rather than absolute rewards. To address this limitation, we introduce the first "clustering of dueling bandit algorithms" to enable collaborative decision-making based on preference feedback. We propose two novel algorithms: (1) Clustering of Linear Dueling Bandits (COLDB) which models the user reward functions as linear functions of the context vectors, and (2) Clustering of Neural Dueling Bandits (CONDB) which uses a neural network to model complex, non-linear user reward functions. Both algorithms are supported by rigorous theoretical analyses, demonstrating that user collaboration leads to improved regret bounds. Extensive empirical evaluations on synthetic and real-world datasets further validate the effectiveness of our methods, establishing their potential in real-world applications involving multiple users with preference-based feedback.
- Abstract(参考訳): 文脈的マルチアームバンディット(英: contextual multi-armed bandit、MAB)は、不確実性の下でのシーケンシャルな意思決定を必要とする問題(例えばレコメンデーションシステムなど)に対して広く使われているフレームワークである。
多数のユーザを含むアプリケーションでは、複数のユーザ間のコラボレーションを容易にすることで、コンテキストMABの性能を大幅に向上させることができる。
これは、ユーザを異なるクラスタにアダプティブにグループ化し、同じクラスタ内のユーザがデータを共有できるようにすることでコラボレーションを実現する、B bandits(CB)メソッドのクラスタリングによって実現されている。
しかし、古典的なCBアルゴリズムは一般に数値的な報酬フィードバックに依存しており、特定の現実世界の応用では実用的ではないかもしれない。
例えば、レコメンデーションシステムでは、絶対的な報酬ではなく、推奨項目のペア間で好みのフィードバックを求める方が現実的で信頼性が高い。
この制限に対処するため、我々は、優先的なフィードバックに基づいて協調的な意思決定を可能にする、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
どちらのアルゴリズムも厳密な理論的分析によってサポートされており、ユーザの協調が後悔の限界を改善することを実証している。
人工的および実世界のデータセットに対する広範囲な実験的評価は、我々の方法の有効性をさらに検証し、嗜好に基づくフィードバックを持つ複数のユーザを含む実世界のアプリケーションにその可能性を確立する。
関連論文リスト
- Behavior Pattern Mining-based Multi-Behavior Recommendation [22.514959709811446]
行動パターンマイニングに基づくマルチ行動レコメンデーション(BPMR)を紹介する。
BPMRは、ユーザとアイテム間の多様な相互作用パターンを広範囲に調査し、これらのパターンを推奨する機能として利用します。
実世界の3つのデータセットに対する実験的評価は、BPMRが既存の最先端アルゴリズムを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-08-22T06:41:59Z) - Meta Clustering of Neural Bandits [45.77505279698894]
ニューラルバンドのクラスタリング(Clustering of Neural Bandits)という新しい問題を,任意の報酬関数に拡張することで研究する。
本稿では,メタラーナーを用いて動的クラスタを高速に表現・適応する,M-CNBという新しいアルゴリズムを提案する。
M-CNBはレコメンデーションとオンラインの分類シナリオの両方で広範な実験を行い、SOTAベースラインを上回ります。
論文 参考訳(メタデータ) (2024-08-10T16:09:51Z) - Conversational Dueling Bandits in Generalized Linear Models [45.99797764214125]
本稿では,相対的なフィードバックに基づく会話を対話レコメンデーションシステムに導入する。
本稿では,ConDuelと呼ばれる新しい対話型デュエル帯域幅アルゴリズムを提案する。
また,理論的および実験的保証により,アルゴリズムをマルチノミアルロジットバンディットに拡張する可能性を実証した。
論文 参考訳(メタデータ) (2024-07-26T03:43:10Z) - Graph Neural Bandits [49.85090929163639]
グラフニューラルネットワーク(GNN)によって強化されたユーザ間の協調性を生かしたグラフニューラルバンド(GNB)というフレームワークを提案する。
提案手法を改良するために,推定ユーザグラフ上の別々のGNNモデルを用いて,エクスプロイトと適応探索を行う。
論文 参考訳(メタデータ) (2023-08-21T15:57:57Z) - Ordinal Graph Gamma Belief Network for Social Recommender Systems [54.9487910312535]
我々は,階層型ベイズモデルであるオーディナルグラフファクター解析(OGFA)を開発し,ユーザ・イテムとユーザ・ユーザインタラクションを共同でモデル化する。
OGFAは、優れたレコメンデーションパフォーマンスを達成するだけでなく、代表ユーザの好みに応じた解釈可能な潜在因子も抽出する。
我々はOGFAを,マルチ確率層深層確率モデルであるオーディナルグラフガンマ信念ネットワークに拡張する。
論文 参考訳(メタデータ) (2022-09-12T09:19:22Z) - Broad Recommender System: An Efficient Nonlinear Collaborative Filtering
Approach [56.12815715932561]
我々はBroad Collaborative Filtering (BroadCF)と呼ばれる新しい広帯域リコメンデータシステムを提案する。
深層ニューラルネットワーク(DNN)の代わりに、ユーザとアイテム間の複雑な非線形関係を学習するためのマッピング機能として、Broad Learning System(BLS)が使用されている。
7つのベンチマークデータセットで実施された大規模な実験により、提案したBroadCFアルゴリズムの有効性が確認された。
論文 参考訳(メタデータ) (2022-04-20T01:25:08Z) - BanditMF: Multi-Armed Bandit Based Matrix Factorization Recommender
System [0.0]
マルチアーム・バンディット(MAB)は、探索と搾取のバランスをとるために原則化されたオンライン学習アプローチを提供する。
協調フィルタリング(CF)は、おそらく推奨システムにおいて最も早く、最も影響力のある手法である。
BanditMFは、マルチアームバンディットアルゴリズムと協調フィルタリングの2つの課題に対処するように設計されている。
論文 参考訳(メタデータ) (2021-06-21T07:35:39Z) - Dual Metric Learning for Effective and Efficient Cross-Domain
Recommendations [85.6250759280292]
クロスドメインレコメンダーシステムは、消費者が異なるアプリケーションで有用なアイテムを識別するのを助けるためにますます価値があります。
既存のクロスドメインモデルは、通常、多くのオーバーラップユーザーを必要とするため、いくつかのアプリケーションでは取得が困難である。
本稿では,2つのドメイン間で情報を反復的に伝達する二元学習に基づく新しいクロスドメインレコメンデーションモデルを提案する。
論文 参考訳(メタデータ) (2021-04-17T09:18:59Z) - Local Clustering in Contextual Multi-Armed Bandits [44.11480686973274]
コンテキスト型マルチアームバンディット(MAB)におけるユーザクラスタの識別について検討する。
本稿では,局所クラスタリング手法を組み込んだ帯域幅アルゴリズム LOCB を提案する。
提案アルゴリズムは,最先端のベースラインよりも優れた様々な側面から評価する。
論文 参考訳(メタデータ) (2021-02-26T21:59:29Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。