論文の概要: Leveraging the Power of Conversations: Optimal Key Term Selection in Conversational Contextual Bandits
- arxiv url: http://arxiv.org/abs/2505.21393v1
- Date: Tue, 27 May 2025 16:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.795472
- Title: Leveraging the Power of Conversations: Optimal Key Term Selection in Conversational Contextual Bandits
- Title(参考訳): 会話の力を活用する:会話の文脈帯域における最適なキーワード選択
- Authors: Maoli Liu, Zhuohua Li, Xiangxiang Dai, John C. S. Lui,
- Abstract要約: 会話レコメンデータシステムは、ユーザに対して、関連する"キーワード"を積極的にクエリし、フィードバックを活用して、パーソナライズされたレコメンデーションのためにユーザの好みを導き出す。
既存のアルゴリズムでは、探索が不十分なキーターム選択戦略を採用しており、しばしばユーザーの好みを徹底的に調査することができない。
CLiSK, CLiME, CLiSK-MEの3つの新しいアルゴリズムを提案する。
理論的には、3つのアルゴリズムが時間的地平線に対して$O(sqrtdTlogT)$のより強い後悔の上限を達成し、既存の手法を改善していることを証明している。
- 参考スコア(独自算出の注目度): 27.62165569135504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational recommender systems proactively query users with relevant "key terms" and leverage the feedback to elicit users' preferences for personalized recommendations. Conversational contextual bandits, a prevalent approach in this domain, aim to optimize preference learning by balancing exploitation and exploration. However, several limitations hinder their effectiveness in real-world scenarios. First, existing algorithms employ key term selection strategies with insufficient exploration, often failing to thoroughly probe users' preferences and resulting in suboptimal preference estimation. Second, current algorithms typically rely on deterministic rules to initiate conversations, causing unnecessary interactions when preferences are well-understood and missed opportunities when preferences are uncertain. To address these limitations, we propose three novel algorithms: CLiSK, CLiME, and CLiSK-ME. CLiSK introduces smoothed key term contexts to enhance exploration in preference learning, CLiME adaptively initiates conversations based on preference uncertainty, and CLiSK-ME integrates both techniques. We theoretically prove that all three algorithms achieve a tighter regret upper bound of $O(\sqrt{dT\log{T}})$ with respect to the time horizon $T$, improving upon existing methods. Additionally, we provide a matching lower bound $\Omega(\sqrt{dT})$ for conversational bandits, demonstrating that our algorithms are nearly minimax optimal. Extensive evaluations on both synthetic and real-world datasets show that our approaches achieve at least a 14.6% improvement in cumulative regret.
- Abstract(参考訳): 会話レコメンデータシステムは、ユーザに対して、関連する"キーワード"を積極的にクエリし、フィードバックを活用して、パーソナライズされたレコメンデーションのためにユーザの好みを導き出す。
会話の文脈的包帯(conversational contextual bandits)は、この領域で一般的なアプローチであり、搾取と探索のバランスをとることで、好みの学習を最適化することを目的としている。
しかし、現実のシナリオではいくつかの制限が有効性を妨げている。
まず、既存のアルゴリズムでは、探索が不十分なキーターム選択戦略を採用しており、多くの場合、ユーザの好みを徹底的に調査することができない。
第二に、現在のアルゴリズムは通常、会話を開始するための決定論的ルールに依存しており、好みがよく理解され、好ましくない場合に不必要な相互作用を引き起こす。
これらの制約に対処するため,CLiSK,CLiME,CLiSK-MEの3つの新しいアルゴリズムを提案する。
CLiSKは、好み学習における探索を強化するためのスムーズなキータームコンテキストを導入し、CLiMEは好みの不確実性に基づいて会話を適応的に開始し、CLiSK-MEはどちらの手法も統合する。
理論上、これら3つのアルゴリズムは、時間的地平線に対する$O(\sqrt{dT\log{T}})$のより厳密な後悔の上界を達成し、既存の手法を改善していることを証明している。
さらに、会話の包帯に対して、一致する下限の$\Omega(\sqrt{dT})$を提供し、我々のアルゴリズムがほぼ極小であることを示す。
人工的および実世界の両方のデータセットに対する広範囲な評価は、我々のアプローチが累積的後悔の少なくとも14.6%の改善を達成していることを示している。
関連論文リスト
- Best-of-Both-Worlds Policy Optimization for CMDPs with Bandit Feedback [34.7178680288326]
Stradi et al.(2024) は、マルコフ決定過程に制約のある最初のベスト・オブ・ボス・ワールドズ・アルゴリズムを提案した。
本稿では,CMDPにおける帯域幅フィードバックを用いたベスト・オブ・ワールドズ・アルゴリズムを提案する。
本アルゴリズムは政策最適化手法に基づいており, 占有率に基づく手法よりも効率的である。
論文 参考訳(メタデータ) (2024-10-03T07:44:40Z) - Rate-Optimal Policy Optimization for Linear Markov Decision Processes [65.5958446762678]
最安値の$widetilde O (sqrt K)$ regret, $K$はエピソード数を表す。
我々の研究は、バンディットフィードバックのある設定において最適な収束率(w.r.t.$K$)を確立する最初のものである。
現在、最適なレート保証を持つアルゴリズムは知られていない。
論文 参考訳(メタデータ) (2023-08-28T15:16:09Z) - Vague Preference Policy Learning for Conversational Recommendation [48.868921530958666]
会話レコメンデーションシステムは通常、ユーザが明確な好みを持っていると仮定し、潜在的に過度なフィルタリングにつながる。
本稿では,Vag Preference Multi-round Conversational Recommendation (VPMCR) シナリオを紹介する。
我々の研究は、ユーザの内在する曖昧さと相対的な意思決定プロセスを調整し、現実の応用性を向上させることでCRSを前進させます。
論文 参考訳(メタデータ) (2023-06-07T14:57:21Z) - Efficient Explorative Key-term Selection Strategies for Conversational
Contextual Bandits [46.49854998602084]
ConLinUCBは,より優れた情報を組み込んだ対話型盗賊のための一般的なフレームワークである。
また、爆発的キー終末選択戦略であるConLinUCB-BSとConLinUCB-MCRの2つのバンディットアルゴリズムを設計する。
合成および実世界のデータに対する実験は、学習精度(最大54%改善)と計算効率(最大72%改善)において、我々のアルゴリズムの顕著な利点を示している。
論文 参考訳(メタデータ) (2023-03-01T08:24:54Z) - Personalized Algorithmic Recourse with Preference Elicitation [20.78332455864586]
PEARは、エンドユーザーのニーズに合わせてパーソナライズされたアルゴリズムの講義を提供する。
PEARは、ベイジアン選好引用からの洞察に基づいて、ターゲットユーザに対して選択セットクエリを尋ねることで、アクションのコストを反復的に見積もる。
実世界のデータセットに対する実証的な評価は、PEARがいかに高品質なパーソナライズされたリコースをほんの数イテレーションで生成するかを強調します。
論文 参考訳(メタデータ) (2022-05-27T03:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。