論文の概要: Efficient Explorative Key-term Selection Strategies for Conversational
Contextual Bandits
- arxiv url: http://arxiv.org/abs/2303.00315v1
- Date: Wed, 1 Mar 2023 08:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 15:34:09.387829
- Title: Efficient Explorative Key-term Selection Strategies for Conversational
Contextual Bandits
- Title(参考訳): 会話文脈帯域に対する効率的な探索的鍵選択手法
- Authors: Zhiyong Wang, Xutong Liu, Shuai Li, John C.S. Lui
- Abstract要約: ConLinUCBは,より優れた情報を組み込んだ対話型盗賊のための一般的なフレームワークである。
また、爆発的キー終末選択戦略であるConLinUCB-BSとConLinUCB-MCRの2つのバンディットアルゴリズムを設計する。
合成および実世界のデータに対する実験は、学習精度(最大54%改善)と計算効率(最大72%改善)において、我々のアルゴリズムの顕著な利点を示している。
- 参考スコア(独自算出の注目度): 36.339363657054726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational contextual bandits elicit user preferences by occasionally
querying for explicit feedback on key-terms to accelerate learning. However,
there are aspects of existing approaches which limit their performance. First,
information gained from key-term-level conversations and arm-level
recommendations is not appropriately incorporated to speed up learning. Second,
it is important to ask explorative key-terms to quickly elicit the user's
potential interests in various domains to accelerate the convergence of user
preference estimation, which has never been considered in existing works. To
tackle these issues, we first propose ``ConLinUCB", a general framework for
conversational bandits with better information incorporation, combining
arm-level and key-term-level feedback to estimate user preference in one step
at each time. Based on this framework, we further design two bandit algorithms
with explorative key-term selection strategies, ConLinUCB-BS and ConLinUCB-MCR.
We prove tighter regret upper bounds of our proposed algorithms. Particularly,
ConLinUCB-BS achieves a regret bound of $O(\sqrt{dT\log T})$, better than the
previous result $O(d\sqrt{T}\log T)$. Extensive experiments on synthetic and
real-world data show significant advantages of our algorithms in learning
accuracy (up to 54\% improvement) and computational efficiency (up to 72\%
improvement), compared to the classic ConUCB algorithm, showing the potential
benefit to recommender systems.
- Abstract(参考訳): 会話的コンテキストバンディットは、学習を加速するためにキータームに明示的なフィードバックを求めることで、時々ユーザーの好みを引き出す。
しかし、既存のアプローチにはパフォーマンスを制限する側面があります。
まず、キーワードレベルの会話やarmレベルのレコメンデーションから得られる情報は、学習をスピードアップするために適切に組み込まれていません。
第二に、爆発的なキータームに様々なドメインにおけるユーザの潜在的関心を素早く引き起こし、既存の作品では考えられていないユーザの嗜好推定の収束を加速させることが重要である。
これらの課題に対処するために,まず,腕レベルとキータームレベルのフィードバックを組み合わせて,各ステップでユーザの嗜好を推定する,対話的盗聴者のための一般的なフレームワークである `ConLinUCB を提案する。
この枠組みに基づき,探索的鍵項選択戦略であるconlinucb-bsとconlinucb-mcrを用いた2つのbanditアルゴリズムを更に設計する。
提案するアルゴリズムの上限がより厳密であることを証明します。
特に、ConLinUCB-BS は、以前の結果の$O(d\sqrt{T}\log T)$よりも良い$O(\sqrt{dT\log T})$の後悔境界を達成する。
合成および実世界のデータに対する大規模な実験は、従来のConUCBアルゴリズムと比較して、学習精度(最大54 %改善)と計算効率(最大72 %改善)においてアルゴリズムの顕著な利点を示し、レコメンダシステムの潜在的な利点を示している。
関連論文リスト
- Expert with Clustering: Hierarchical Online Preference Learning
Framework [4.05836962263239]
Expert with Clustering (EWC) は階層的なコンテキスト的バンディットフレームワークである。
EWCは階層的ユーザ情報を効率的に利用し、新しいロス誘導距離計を組み込む。
EWCはLinUCBベースラインと比較して後悔を27.57%減らすことができる。
論文 参考訳(メタデータ) (2024-01-26T18:44:49Z) - Follow-ups Also Matter: Improving Contextual Bandits via Post-serving
Contexts [31.33919659549256]
本稿では,ポストサーベイング・コンテクストに対する新しい文脈的バンディット問題を提案する。
我々のアルゴリズムである poLinUCB は、標準的な仮定の下では、厳格に後悔する。
合成データセットと実世界のデータセットの両方に対する大規模な実証テストは、サービス後コンテキストを活用するという大きなメリットを示している。
論文 参考訳(メタデータ) (2023-09-25T06:22:28Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Hierarchical Conversational Preference Elicitation with Bandit Feedback [36.507341041113825]
提案システムでは,各ラウンドで推薦するキータームかアイテムのいずれかを選択することができる。
実世界のデータセットを調査・分析し、先行研究と異なり、キーターム報酬は主に代表品の報酬に影響されていることを確認する。
我々は、この観測結果とキータームとアイテム間の階層構造を利用する2つの帯域幅アルゴリズム、Hier-UCBとHier-LinUCBを提案する。
論文 参考訳(メタデータ) (2022-09-06T05:35:24Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - An Improved Reinforcement Learning Algorithm for Learning to Branch [12.27934038849211]
ブランチ・アンド・バウンド(B&B)は最適化の一般的な方法である。
本稿では,新しい強化学習に基づくB&Bアルゴリズムを提案する。
提案アルゴリズムの性能を3つの公開研究ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-01-17T04:50:11Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。