論文の概要: Efficient Explorative Key-term Selection Strategies for Conversational
Contextual Bandits
- arxiv url: http://arxiv.org/abs/2303.00315v1
- Date: Wed, 1 Mar 2023 08:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 15:34:09.387829
- Title: Efficient Explorative Key-term Selection Strategies for Conversational
Contextual Bandits
- Title(参考訳): 会話文脈帯域に対する効率的な探索的鍵選択手法
- Authors: Zhiyong Wang, Xutong Liu, Shuai Li, John C.S. Lui
- Abstract要約: ConLinUCBは,より優れた情報を組み込んだ対話型盗賊のための一般的なフレームワークである。
また、爆発的キー終末選択戦略であるConLinUCB-BSとConLinUCB-MCRの2つのバンディットアルゴリズムを設計する。
合成および実世界のデータに対する実験は、学習精度(最大54%改善)と計算効率(最大72%改善)において、我々のアルゴリズムの顕著な利点を示している。
- 参考スコア(独自算出の注目度): 36.339363657054726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational contextual bandits elicit user preferences by occasionally
querying for explicit feedback on key-terms to accelerate learning. However,
there are aspects of existing approaches which limit their performance. First,
information gained from key-term-level conversations and arm-level
recommendations is not appropriately incorporated to speed up learning. Second,
it is important to ask explorative key-terms to quickly elicit the user's
potential interests in various domains to accelerate the convergence of user
preference estimation, which has never been considered in existing works. To
tackle these issues, we first propose ``ConLinUCB", a general framework for
conversational bandits with better information incorporation, combining
arm-level and key-term-level feedback to estimate user preference in one step
at each time. Based on this framework, we further design two bandit algorithms
with explorative key-term selection strategies, ConLinUCB-BS and ConLinUCB-MCR.
We prove tighter regret upper bounds of our proposed algorithms. Particularly,
ConLinUCB-BS achieves a regret bound of $O(\sqrt{dT\log T})$, better than the
previous result $O(d\sqrt{T}\log T)$. Extensive experiments on synthetic and
real-world data show significant advantages of our algorithms in learning
accuracy (up to 54\% improvement) and computational efficiency (up to 72\%
improvement), compared to the classic ConUCB algorithm, showing the potential
benefit to recommender systems.
- Abstract(参考訳): 会話的コンテキストバンディットは、学習を加速するためにキータームに明示的なフィードバックを求めることで、時々ユーザーの好みを引き出す。
しかし、既存のアプローチにはパフォーマンスを制限する側面があります。
まず、キーワードレベルの会話やarmレベルのレコメンデーションから得られる情報は、学習をスピードアップするために適切に組み込まれていません。
第二に、爆発的なキータームに様々なドメインにおけるユーザの潜在的関心を素早く引き起こし、既存の作品では考えられていないユーザの嗜好推定の収束を加速させることが重要である。
これらの課題に対処するために,まず,腕レベルとキータームレベルのフィードバックを組み合わせて,各ステップでユーザの嗜好を推定する,対話的盗聴者のための一般的なフレームワークである `ConLinUCB を提案する。
この枠組みに基づき,探索的鍵項選択戦略であるconlinucb-bsとconlinucb-mcrを用いた2つのbanditアルゴリズムを更に設計する。
提案するアルゴリズムの上限がより厳密であることを証明します。
特に、ConLinUCB-BS は、以前の結果の$O(d\sqrt{T}\log T)$よりも良い$O(\sqrt{dT\log T})$の後悔境界を達成する。
合成および実世界のデータに対する大規模な実験は、従来のConUCBアルゴリズムと比較して、学習精度(最大54 %改善)と計算効率(最大72 %改善)においてアルゴリズムの顕著な利点を示し、レコメンダシステムの潜在的な利点を示している。
関連論文リスト
- Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - Revisiting and Maximizing Temporal Knowledge in Semi-supervised Semantic Segmentation [7.005068872406135]
平均教師と共同学習に基づくアプローチは、確認バイアスと結合問題を緩和するために用いられる。
これらのアプローチは、複雑なトレーニングパイプラインとかなりの計算負担を伴うことが多い。
本稿では,トレーニングプロセス中に得られた時間的知識を最大限活用することにより,制約を効果的に緩和するPrevMatchフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-31T03:54:59Z) - Reinforced In-Context Black-Box Optimization [64.25546325063272]
RIBBOは、オフラインデータからエンドツーエンドでBBOアルゴリズムを強化学習する手法である。
RIBBOは、複数の動作アルゴリズムとタスクによって生成される最適化履歴を学習するために、表現的なシーケンスモデルを使用している。
提案手法の中心となるのは,テキストレグレット・ツー・ゴートークンによる最適化履歴の増大である。
論文 参考訳(メタデータ) (2024-02-27T11:32:14Z) - Expert with Clustering: Hierarchical Online Preference Learning Framework [4.05836962263239]
Expert with Clustering (EWC)は、クラスタリングのテクニックと予測を専門家のアドバイスと統合した階層的なコンテキスト的バンディットフレームワークである。
EWCはLinUCBベースラインと比較して後悔を27.57%減らすことができる。
論文 参考訳(メタデータ) (2024-01-26T18:44:49Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Hierarchical Conversational Preference Elicitation with Bandit Feedback [36.507341041113825]
提案システムでは,各ラウンドで推薦するキータームかアイテムのいずれかを選択することができる。
実世界のデータセットを調査・分析し、先行研究と異なり、キーターム報酬は主に代表品の報酬に影響されていることを確認する。
我々は、この観測結果とキータームとアイテム間の階層構造を利用する2つの帯域幅アルゴリズム、Hier-UCBとHier-LinUCBを提案する。
論文 参考訳(メタデータ) (2022-09-06T05:35:24Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - An Improved Reinforcement Learning Algorithm for Learning to Branch [12.27934038849211]
ブランチ・アンド・バウンド(B&B)は最適化の一般的な方法である。
本稿では,新しい強化学習に基づくB&Bアルゴリズムを提案する。
提案アルゴリズムの性能を3つの公開研究ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-01-17T04:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。