Fugu-MT 論文翻訳(概要): Efficient Explorative Key-term Selection Strategies for Conversational Contextual Bandits

論文の概要: Efficient Explorative Key-term Selection Strategies for Conversational Contextual Bandits

arxiv url: http://arxiv.org/abs/2303.00315v1
Date: Wed, 1 Mar 2023 08:24:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-02 15:34:09.387829
Title: Efficient Explorative Key-term Selection Strategies for Conversational Contextual Bandits
Title（参考訳）: 会話文脈帯域に対する効率的な探索的鍵選択手法
Authors: Zhiyong Wang, Xutong Liu, Shuai Li, John C.S. Lui
Abstract要約: ConLinUCBは,より優れた情報を組み込んだ対話型盗賊のための一般的なフレームワークである。また、爆発的キー終末選択戦略であるConLinUCB-BSとConLinUCB-MCRの2つのバンディットアルゴリズムを設計する。合成および実世界のデータに対する実験は、学習精度(最大54%改善)と計算効率(最大72%改善)において、我々のアルゴリズムの顕著な利点を示している。
参考スコア（独自算出の注目度）: 36.339363657054726
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Conversational contextual bandits elicit user preferences by occasionally querying for explicit feedback on key-terms to accelerate learning. However, there are aspects of existing approaches which limit their performance. First, information gained from key-term-level conversations and arm-level recommendations is not appropriately incorporated to speed up learning. Second, it is important to ask explorative key-terms to quickly elicit the user's potential interests in various domains to accelerate the convergence of user preference estimation, which has never been considered in existing works. To tackle these issues, we first propose ``ConLinUCB", a general framework for conversational bandits with better information incorporation, combining arm-level and key-term-level feedback to estimate user preference in one step at each time. Based on this framework, we further design two bandit algorithms with explorative key-term selection strategies, ConLinUCB-BS and ConLinUCB-MCR. We prove tighter regret upper bounds of our proposed algorithms. Particularly, ConLinUCB-BS achieves a regret bound of $O(\sqrt{dT\log T})$, better than the previous result $O(d\sqrt{T}\log T)$. Extensive experiments on synthetic and real-world data show significant advantages of our algorithms in learning accuracy (up to 54\% improvement) and computational efficiency (up to 72\% improvement), compared to the classic ConUCB algorithm, showing the potential benefit to recommender systems.
Abstract（参考訳）: 会話的コンテキストバンディットは、学習を加速するためにキータームに明示的なフィードバックを求めることで、時々ユーザーの好みを引き出す。しかし、既存のアプローチにはパフォーマンスを制限する側面があります。まず、キーワードレベルの会話やarmレベルのレコメンデーションから得られる情報は、学習をスピードアップするために適切に組み込まれていません。第二に、爆発的なキータームに様々なドメインにおけるユーザの潜在的関心を素早く引き起こし、既存の作品では考えられていないユーザの嗜好推定の収束を加速させることが重要である。これらの課題に対処するために,まず,腕レベルとキータームレベルのフィードバックを組み合わせて,各ステップでユーザの嗜好を推定する,対話的盗聴者のための一般的なフレームワークである `ConLinUCB を提案する。この枠組みに基づき,探索的鍵項選択戦略であるconlinucb-bsとconlinucb-mcrを用いた2つのbanditアルゴリズムを更に設計する。提案するアルゴリズムの上限がより厳密であることを証明します。特に、ConLinUCB-BS は、以前の結果の$O(d\sqrt{T}\log T)$よりも良い$O(\sqrt{dT\log T})$の後悔境界を達成する。合成および実世界のデータに対する大規模な実験は、従来のConUCBアルゴリズムと比較して、学習精度(最大54 %改善)と計算効率(最大72 %改善)においてアルゴリズムの顕著な利点を示し、レコメンダシステムの潜在的な利点を示している。

関連論文リスト

Adapting to Stochastic and Adversarial Losses in Episodic MDPs with Aggregate Bandit Feedback [61.49239204705301]
本研究では,有限水平マルコフ決定過程(MDP)におけるオンライン学習について,包括的包括的包括的フィードバックモデルを用いて検討する。本研究は, オンライン最短経路問題の近年の進展に触発された, 占領対策, 自己拘束技術, 新たな損失推定器の組合せに依拠する。
論文参考訳（メタデータ） (2025-10-20T02:28:08Z)
Multi-User Contextual Cascading Bandits for Personalized Recommendation [2.506355754272765]
Multi-User Contextual Cascading Banditモデルは、複数のユーザがシーケンシャルに表示されたアイテムと同時に対話するリアルなオンライン広告シナリオをキャプチャする。我々はまず,UCBBP(Upper Confidence Bound with Backward Planning)を提案する。この設定に適したUCBスタイルのアルゴリズムで,$widetildeO(sqrtTHN)$が$T$以上,セッションステップが$H$,コンテキストが$N$以上となることを証明している。多くのユーザが同時にシステムと対話するという事実に感銘を受けて、我々はActive Up Confidence Bound withという第2のアルゴリズムを導入しました。
論文参考訳（メタデータ） (2025-08-19T16:14:33Z)
Leveraging the Power of Conversations: Optimal Key Term Selection in Conversational Contextual Bandits [27.62165569135504]
会話レコメンデータシステムは、ユーザに対して、関連する"キーワード"を積極的にクエリし、フィードバックを活用して、パーソナライズされたレコメンデーションのためにユーザの好みを導き出す。既存のアルゴリズムでは、探索が不十分なキーターム選択戦略を採用しており、しばしばユーザーの好みを徹底的に調査することができない。 CLiSK, CLiME, CLiSK-MEの3つの新しいアルゴリズムを提案する。理論的には、3つのアルゴリズムが時間的地平線に対して$O(sqrtdTlogT)$のより強い後悔の上限を達成し、既存の手法を改善していることを証明している。
論文参考訳（メタデータ） (2025-05-27T16:22:32Z)
Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文参考訳（メタデータ） (2025-02-05T17:14:45Z)
Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-04T07:55:41Z)
Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-01T16:38:29Z)
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2024-07-02T10:09:19Z)
Revisiting and Maximizing Temporal Knowledge in Semi-supervised Semantic Segmentation [7.005068872406135]
平均教師と共同学習に基づくアプローチは、確認バイアスと結合問題を緩和するために用いられる。これらのアプローチは、複雑なトレーニングパイプラインとかなりの計算負担を伴うことが多い。本稿では,トレーニングプロセス中に得られた時間的知識を最大限活用することにより,制約を効果的に緩和するPrevMatchフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-31T03:54:59Z)
Reinforced In-Context Black-Box Optimization [64.25546325063272]
RIBBOは、オフラインデータからエンドツーエンドでBBOアルゴリズムを強化学習する手法である。 RIBBOは、複数の動作アルゴリズムとタスクによって生成される最適化履歴を学習するために、表現的なシーケンスモデルを使用している。提案手法の中心となるのは,テキストレグレット・ツー・ゴートークンによる最適化履歴の増大である。
論文参考訳（メタデータ） (2024-02-27T11:32:14Z)
Expert with Clustering: Hierarchical Online Preference Learning Framework [4.05836962263239]
Expert with Clustering (EWC)は、クラスタリングのテクニックと予測を専門家のアドバイスと統合した階層的なコンテキスト的バンディットフレームワークである。 EWCはLinUCBベースラインと比較して後悔を27.57%減らすことができる。
論文参考訳（メタデータ） (2024-01-26T18:44:49Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Hierarchical Conversational Preference Elicitation with Bandit Feedback [36.507341041113825]
提案システムでは,各ラウンドで推薦するキータームかアイテムのいずれかを選択することができる。実世界のデータセットを調査・分析し、先行研究と異なり、キーターム報酬は主に代表品の報酬に影響されていることを確認する。我々は、この観測結果とキータームとアイテム間の階層構造を利用する2つの帯域幅アルゴリズム、Hier-UCBとHier-LinUCBを提案する。
論文参考訳（メタデータ） (2022-09-06T05:35:24Z)
Meta-Wrapper: Differentiable Wrapping Operator for User Interest Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2022-06-28T03:28:15Z)
Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文参考訳（メタデータ） (2022-05-13T21:09:41Z)
An Improved Reinforcement Learning Algorithm for Learning to Branch [12.27934038849211]
ブランチ・アンド・バウンド(B&B)は最適化の一般的な方法である。本稿では,新しい強化学習に基づくB&Bアルゴリズムを提案する。提案アルゴリズムの性能を3つの公開研究ベンチマークで評価した。
論文参考訳（メタデータ） (2022-01-17T04:50:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。