論文の概要: Hierarchical Conversational Preference Elicitation with Bandit Feedback
- arxiv url: http://arxiv.org/abs/2209.06129v1
- Date: Tue, 6 Sep 2022 05:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 17:50:25.016768
- Title: Hierarchical Conversational Preference Elicitation with Bandit Feedback
- Title(参考訳): バンディットフィードバックによる階層的会話嗜好誘発
- Authors: Jinhang Zuo, Songwen Hu, Tong Yu, Shuai Li, Handong Zhao, Carlee
Joe-Wong
- Abstract要約: 提案システムでは,各ラウンドで推薦するキータームかアイテムのいずれかを選択することができる。
実世界のデータセットを調査・分析し、先行研究と異なり、キーターム報酬は主に代表品の報酬に影響されていることを確認する。
我々は、この観測結果とキータームとアイテム間の階層構造を利用する2つの帯域幅アルゴリズム、Hier-UCBとHier-LinUCBを提案する。
- 参考スコア(独自算出の注目度): 36.507341041113825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advances of conversational recommendations provide a promising way
to efficiently elicit users' preferences via conversational interactions. To
achieve this, the recommender system conducts conversations with users, asking
their preferences for different items or item categories. Most existing
conversational recommender systems for cold-start users utilize a multi-armed
bandit framework to learn users' preference in an online manner. However, they
rely on a pre-defined conversation frequency for asking about item categories
instead of individual items, which may incur excessive conversational
interactions that hurt user experience. To enable more flexible questioning
about key-terms, we formulate a new conversational bandit problem that allows
the recommender system to choose either a key-term or an item to recommend at
each round and explicitly models the rewards of these actions. This motivates
us to handle a new exploration-exploitation (EE) trade-off between key-term
asking and item recommendation, which requires us to accurately model the
relationship between key-term and item rewards. We conduct a survey and analyze
a real-world dataset to find that, unlike assumptions made in prior works,
key-term rewards are mainly affected by rewards of representative items. We
propose two bandit algorithms, Hier-UCB and Hier-LinUCB, that leverage this
observed relationship and the hierarchical structure between key-terms and
items to efficiently learn which items to recommend. We theoretically prove
that our algorithm can reduce the regret bound's dependency on the total number
of items from previous work. We validate our proposed algorithms and regret
bound on both synthetic and real-world data.
- Abstract(参考訳): 近年の会話レコメンデーションの進歩は、対話的インタラクションを通じてユーザの好みを効率的に導き出す有望な方法を提供している。
これを実現するため、推薦者は利用者と会話を行い、異なる項目や項目カテゴリの好みを尋ねる。
コールドスタートユーザのための既存の会話レコメンデーションシステムは、マルチアームのバンディットフレームワークを使用して、ユーザの好みをオンラインで学習する。
しかし、個々の項目ではなく項目カテゴリを問うために事前に定義された会話頻度に依存しており、これはユーザー体験を損なう過度な会話相互作用を引き起こす可能性がある。
キータームに関するより柔軟な質問を可能にするために、提案システムは、各ラウンドで推奨するキータームまたはアイテムを選択し、これらのアクションの報酬を明示的にモデル化する。
これは、キーターム要求とアイテムレコメンデーションの間の新たな調査-探索(EE)トレードオフを扱う動機となり、キータームとアイテムの報酬の関係を正確にモデル化する必要があります。
実世界のデータセットを調査・分析し、先行研究と異なり、キーターム報酬は主に代表品の報酬に影響されていることを確認する。
そこで我々は,この観測された関係とキーワードと項目間の階層構造を利用して,推奨項目を効率的に学習する2つのバンドイットアルゴリズム,hier-ucbとhier-linucbを提案する。
理論上,本アルゴリズムは,先行研究の項目数に対する後悔境界の依存性を低減できることを実証する。
提案するアルゴリズムと,合成データと実世界データの両方に拘束された後悔を検証する。
関連論文リスト
- Conversational Dueling Bandits in Generalized Linear Models [45.99797764214125]
本稿では,相対的なフィードバックに基づく会話を対話レコメンデーションシステムに導入する。
本稿では,ConDuelと呼ばれる新しい対話型デュエル帯域幅アルゴリズムを提案する。
また,理論的および実験的保証により,アルゴリズムをマルチノミアルロジットバンディットに拡張する可能性を実証した。
論文 参考訳(メタデータ) (2024-07-26T03:43:10Z) - Modeling Multiple User Interests using Hierarchical Knowledge for
Conversational Recommender System [13.545276171601769]
会話レコメンデーションシステム(CRS)は,自然言語会話による項目レコメンデーションの実践的応用である。
我々は、CRSにおいてそのような複数のユーザ関心をモデル化することを提案する。
ReDial データセットを用いて実験を行った結果,提案手法はベースライン CR-Walker よりも幅広い項目を推奨できることがわかった。
論文 参考訳(メタデータ) (2023-03-01T08:15:48Z) - Talk the Walk: Synthetic Data Generation for Conversational Music
Recommendation [62.019437228000776]
本稿では,広く利用可能なアイテムコレクションにおいて,符号化された専門知識を活用することで,現実的な高品質な会話データを生成するTalkWalkを提案する。
人間の収集したデータセットで100万以上の多様な会話を生成します。
論文 参考訳(メタデータ) (2023-01-27T01:54:16Z) - COLA: Improving Conversational Recommender Systems by Collaborative
Augmentation [9.99763097964222]
アイテム表現学習とユーザ嗜好モデリングの両方を改善するために,協調的拡張(COLA)手法を提案する。
すべての会話から対話型ユーザテムグラフを構築し,ユーザ認識情報によってアイテム表現を拡大する。
ユーザの嗜好モデルを改善するため,学習コーパスから類似した会話を検索し,ユーザの興味を反映した関連項目や属性を用いてユーザ表現を増強する。
論文 参考訳(メタデータ) (2022-12-15T12:37:28Z) - Comparison-based Conversational Recommender System with Relative Bandit
Feedback [15.680698037463488]
比較に基づく会話推薦システムを提案する。
我々はRelativeConUCBと呼ばれる新しい帯域幅アルゴリズムを提案する。
合成および実世界の両方のデータセットに対する実験により,提案手法の利点が検証された。
論文 参考訳(メタデータ) (2022-08-21T08:05:46Z) - Soliciting User Preferences in Conversational Recommender Systems via
Usage-related Questions [21.184555512370093]
項目使用量に基づいて暗黙的な質問を行うことにより、嗜好の誘惑に対する新しいアプローチを提案する。
まず,項目利用情報を含む大規模なレビューコーパスから文を識別する。
そして,ニューラルネットワークモデルを用いて,これらの文から暗黙の選好質問を生成する。
論文 参考訳(メタデータ) (2021-11-26T12:23:14Z) - Learning to Ask Appropriate Questions in Conversational Recommendation [49.31942688227828]
対話型レコメンデーションのための新しいフレームワークであるKnowledge-Based Question Generation System (KBQG)を提案する。
KBQGは、構造化知識グラフから最も関連性の高い関係を識別することにより、ユーザの好みをよりきめ細かな粒度でモデル化する。
最終的には、正確な推奨は会話の順番を少なくして生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:58:10Z) - Seamlessly Unifying Attributes and Items: Conversational Recommendation
for Cold-Start Users [111.28351584726092]
コールドスタートユーザに対しては,属性を問うと同時に,ユーザに対して対話的に商品を推薦する,対話型レコメンデーションを提案する。
会話型トンプソンサンプリング(ConTS)モデルでは,最大報酬の腕を選択することで,対話型レコメンデーションにおけるすべての質問を一意に解決する。
論文 参考訳(メタデータ) (2020-05-23T08:56:37Z) - A Bayesian Approach to Conversational Recommendation Systems [60.12942570608859]
ベイズ的アプローチに基づく会話推薦システムを提案する。
エンターテイナーを予約するオンラインプラットフォームであるemphstagend.comへのこのアプローチの適用に基づくケーススタディについて論じる。
論文 参考訳(メタデータ) (2020-02-12T15:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。