論文の概要: Efficient Explorative Key-term Selection Strategies for Conversational
Contextual Bandits
- arxiv url: http://arxiv.org/abs/2303.00315v2
- Date: Sun, 1 Oct 2023 08:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 20:18:41.497991
- Title: Efficient Explorative Key-term Selection Strategies for Conversational
Contextual Bandits
- Title(参考訳): 会話文脈帯域に対する効率的な探索的鍵選択手法
- Authors: Zhiyong Wang, Xutong Liu, Shuai Li, John C.S. Lui
- Abstract要約: ConLinUCBは,より優れた情報を組み込んだ対話型盗賊のための一般的なフレームワークである。
また、爆発的キー終末選択戦略であるConLinUCB-BSとConLinUCB-MCRの2つのバンディットアルゴリズムを設計する。
合成および実世界のデータに対する実験は、学習精度(最大54%改善)と計算効率(最大72%改善)において、我々のアルゴリズムの顕著な利点を示している。
- 参考スコア(独自算出の注目度): 46.49854998602084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational contextual bandits elicit user preferences by occasionally
querying for explicit feedback on key-terms to accelerate learning. However,
there are aspects of existing approaches which limit their performance. First,
information gained from key-term-level conversations and arm-level
recommendations is not appropriately incorporated to speed up learning. Second,
it is important to ask explorative key-terms to quickly elicit the user's
potential interests in various domains to accelerate the convergence of user
preference estimation, which has never been considered in existing works. To
tackle these issues, we first propose ``ConLinUCB", a general framework for
conversational bandits with better information incorporation, combining
arm-level and key-term-level feedback to estimate user preference in one step
at each time. Based on this framework, we further design two bandit algorithms
with explorative key-term selection strategies, ConLinUCB-BS and ConLinUCB-MCR.
We prove tighter regret upper bounds of our proposed algorithms. Particularly,
ConLinUCB-BS achieves a regret bound of $O(d\sqrt{T\log T})$, better than the
previous result $O(d\sqrt{T}\log T)$. Extensive experiments on synthetic and
real-world data show significant advantages of our algorithms in learning
accuracy (up to 54\% improvement) and computational efficiency (up to 72\%
improvement), compared to the classic ConUCB algorithm, showing the potential
benefit to recommender systems.
- Abstract(参考訳): 会話的コンテキストバンディットは、学習を加速するためにキータームに明示的なフィードバックを求めることで、時々ユーザーの好みを引き出す。
しかし、既存のアプローチにはパフォーマンスを制限する側面があります。
まず、キーワードレベルの会話やarmレベルのレコメンデーションから得られる情報は、学習をスピードアップするために適切に組み込まれていません。
第二に、爆発的なキータームに様々なドメインにおけるユーザの潜在的関心を素早く引き起こし、既存の作品では考えられていないユーザの嗜好推定の収束を加速させることが重要である。
これらの課題に対処するために,まず,腕レベルとキータームレベルのフィードバックを組み合わせて,各ステップでユーザの嗜好を推定する,対話的盗聴者のための一般的なフレームワークである `ConLinUCB を提案する。
この枠組みに基づき,探索的鍵項選択戦略であるconlinucb-bsとconlinucb-mcrを用いた2つのbanditアルゴリズムを更に設計する。
提案するアルゴリズムの上限がより厳密であることを証明します。
特に、ConLinUCB-BS は、以前の結果である$O(d\sqrt{T}\log T})$よりも良い$O(d\sqrt{T}\log T})$の後悔境界を達成する。
合成および実世界のデータに対する大規模な実験は、従来のConUCBアルゴリズムと比較して、学習精度(最大54 %改善)と計算効率(最大72 %改善)においてアルゴリズムの顕著な利点を示し、レコメンダシステムの潜在的な利点を示している。
関連論文リスト
- Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T07:55:41Z) - Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。
既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。
クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-01T16:38:29Z) - Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - Expert with Clustering: Hierarchical Online Preference Learning Framework [4.05836962263239]
Expert with Clustering (EWC)は、クラスタリングのテクニックと予測を専門家のアドバイスと統合した階層的なコンテキスト的バンディットフレームワークである。
EWCはLinUCBベースラインと比較して後悔を27.57%減らすことができる。
論文 参考訳(メタデータ) (2024-01-26T18:44:49Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Hierarchical Conversational Preference Elicitation with Bandit Feedback [36.507341041113825]
提案システムでは,各ラウンドで推薦するキータームかアイテムのいずれかを選択することができる。
実世界のデータセットを調査・分析し、先行研究と異なり、キーターム報酬は主に代表品の報酬に影響されていることを確認する。
我々は、この観測結果とキータームとアイテム間の階層構造を利用する2つの帯域幅アルゴリズム、Hier-UCBとHier-LinUCBを提案する。
論文 参考訳(メタデータ) (2022-09-06T05:35:24Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。