論文の概要: Conversational Dueling Bandits in Generalized Linear Models
- arxiv url: http://arxiv.org/abs/2407.18488v1
- Date: Fri, 26 Jul 2024 03:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:29:54.707225
- Title: Conversational Dueling Bandits in Generalized Linear Models
- Title(参考訳): 一般化線形モデルにおける会話デュエル帯域
- Authors: Shuhua Yang, Hui Yuan, Xiaoying Zhang, Mengdi Wang, Hong Zhang, Huazheng Wang,
- Abstract要約: 本稿では,相対的なフィードバックに基づく会話を対話レコメンデーションシステムに導入する。
本稿では,ConDuelと呼ばれる新しい対話型デュエル帯域幅アルゴリズムを提案する。
また,理論的および実験的保証により,アルゴリズムをマルチノミアルロジットバンディットに拡張する可能性を実証した。
- 参考スコア(独自算出の注目度): 45.99797764214125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conversational recommendation systems elicit user preferences by interacting with users to obtain their feedback on recommended commodities. Such systems utilize a multi-armed bandit framework to learn user preferences in an online manner and have received great success in recent years. However, existing conversational bandit methods have several limitations. First, they only enable users to provide explicit binary feedback on the recommended items or categories, leading to ambiguity in interpretation. In practice, users are usually faced with more than one choice. Relative feedback, known for its informativeness, has gained increasing popularity in recommendation system design. Moreover, current contextual bandit methods mainly work under linear reward assumptions, ignoring practical non-linear reward structures in generalized linear models. Therefore, in this paper, we introduce relative feedback-based conversations into conversational recommendation systems through the integration of dueling bandits in generalized linear models (GLM) and propose a novel conversational dueling bandit algorithm called ConDuel. Theoretical analyses of regret upper bounds and empirical validations on synthetic and real-world data underscore ConDuel's efficacy. We also demonstrate the potential to extend our algorithm to multinomial logit bandits with theoretical and experimental guarantees, which further proves the applicability of the proposed framework.
- Abstract(参考訳): 会話レコメンデーションシステムは、ユーザと対話して、推奨商品に対するフィードバックを得ることによって、ユーザの嗜好を喚起する。
このようなシステムは、マルチアームのバンディット・フレームワークを用いて、ユーザの好みをオンラインで学習し、近年大きな成功を収めている。
しかし、既存の会話型帯域幅法にはいくつかの制限がある。
まず、推奨項目やカテゴリに対して明確なバイナリフィードバックを提供することしかできず、解釈の曖昧さにつながる。
実際には、ユーザーは通常複数の選択肢に直面する。
その情報性で知られる相対的なフィードバックは、レコメンデーションシステム設計において人気が高まっている。
さらに、現在の文脈帯域法は主に線形報酬仮定の下で機能し、一般化線形モデルにおける実用的な非線形報酬構造を無視している。
そこで本稿では,一般化線形モデル(GLM)におけるダウリング帯域幅の統合を通じて,相対的なフィードバックに基づく会話を会話レコメンデーションシステムに導入し,ConDuelと呼ばれる新しい会話ダウリング帯域幅アルゴリズムを提案する。
コンデュエルの有効性を裏付ける合成および実世界のデータに対する後悔の上界と実証的検証の理論解析
また,提案手法を理論的,実験的に保証したマルチノードロジット帯域に拡張する可能性を示し,提案手法の適用性をさらに証明する。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Neural Contextual Bandits for Personalized Recommendation [49.85090929163639]
本チュートリアルでは、パーソナライズされたレコメンデーションのための強力なフレームワークとして、コンテキスト帯について検討する。
我々は、リコメンデーターシステムにおける「マシュー効果」を緩和するために、文脈的盗賊の探索的視点に焦点を当てる。
従来の線形文脈包帯に加えて、我々は神経文脈包帯にも焦点をあてる。
論文 参考訳(メタデータ) (2023-12-21T17:03:26Z) - Hierarchical Conversational Preference Elicitation with Bandit Feedback [36.507341041113825]
提案システムでは,各ラウンドで推薦するキータームかアイテムのいずれかを選択することができる。
実世界のデータセットを調査・分析し、先行研究と異なり、キーターム報酬は主に代表品の報酬に影響されていることを確認する。
我々は、この観測結果とキータームとアイテム間の階層構造を利用する2つの帯域幅アルゴリズム、Hier-UCBとHier-LinUCBを提案する。
論文 参考訳(メタデータ) (2022-09-06T05:35:24Z) - Comparison-based Conversational Recommender System with Relative Bandit
Feedback [15.680698037463488]
比較に基づく会話推薦システムを提案する。
我々はRelativeConUCBと呼ばれる新しい帯域幅アルゴリズムを提案する。
合成および実世界の両方のデータセットに対する実験により,提案手法の利点が検証された。
論文 参考訳(メタデータ) (2022-08-21T08:05:46Z) - BanditMF: Multi-Armed Bandit Based Matrix Factorization Recommender
System [0.0]
マルチアーム・バンディット(MAB)は、探索と搾取のバランスをとるために原則化されたオンライン学習アプローチを提供する。
協調フィルタリング(CF)は、おそらく推奨システムにおいて最も早く、最も影響力のある手法である。
BanditMFは、マルチアームバンディットアルゴリズムと協調フィルタリングの2つの課題に対処するように設計されている。
論文 参考訳(メタデータ) (2021-06-21T07:35:39Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。