論文の概要: Online Bayesian Recommendation with No Regret
- arxiv url: http://arxiv.org/abs/2202.06135v1
- Date: Sat, 12 Feb 2022 20:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 18:22:55.934846
- Title: Online Bayesian Recommendation with No Regret
- Title(参考訳): 規則のないオンラインベイズ勧告
- Authors: Yiding Feng, Wei Tang, Haifeng Xu
- Abstract要約: プラットフォームのためのオンラインベイズレコメンデーション問題について検討する。
プライベートな好みと信念を持つユーザに対して、プラットフォームはレコメンデーション戦略にコミットする。
適応的なオンライン政策がラウンド数への依存度を高めて後悔を達成できないことを示す。
- 参考スコア(独自算出の注目度): 32.520840260180535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce and study the online Bayesian recommendation problem for a
platform, who can observe a utility-relevant state of a product, repeatedly
interacting with a population of myopic users through an online recommendation
mechanism. This paradigm is common in a wide range of scenarios in the current
Internet economy. For each user with her own private preference and belief, the
platform commits to a recommendation strategy to utilize his information
advantage on the product state to persuade the self-interested user to follow
the recommendation. The platform does not know user's preferences and beliefs,
and has to use an adaptive recommendation strategy to persuade with gradually
learning user's preferences and beliefs in the process.
We aim to design online learning policies with no Stackelberg regret for the
platform, i.e., against the optimum policy in hindsight under the assumption
that users will correspondingly adapt their behaviors to the benchmark policy.
Our first result is an online policy that achieves double logarithm regret
dependence on the number of rounds. We then present a hardness result showing
that no adaptive online policy can achieve regret with better dependency on the
number of rounds. Finally, by formulating the platform's problem as optimizing
a linear program with membership oracle access, we present our second online
policy that achieves regret with polynomial dependence on the number of states
but logarithm dependence on the number of rounds.
- Abstract(参考訳): 我々は,オンライン・レコメンデーション・メカニズムを用いて,ユーザ集団と繰り返し対話しながら,製品の実用的関連状態を観察できるプラットフォームに対して,オンライン・ベイズ・レコメンデーション問題を紹介し,検討する。
このパラダイムは、現在のインターネット経済における幅広いシナリオにおいて一般的です。
自身の個人的な好みと信念を持つ各ユーザに対して、プラットフォームは、自身の情報優位性をプロダクトステートに活用して、自己関心のあるユーザにその推奨に従うように説得するための推奨戦略をコミットする。
プラットフォームはユーザの好みや信念を知らないため、プロセスにおけるユーザの好みや信念を徐々に学習するように、適応的な推奨戦略を使用する必要があります。
我々は、Stackelbergがプラットフォームに後悔せずにオンライン学習ポリシーを設計すること、すなわち、ユーザがベンチマークポリシーに対応する行動を適用するという仮定の下で、後ろ向きに最適なポリシーに反対することを目的としている。
私たちの最初の成果は、ラウンド数に対する二重対数後悔を達成できるオンラインポリシーです。
次に、適応的なオンラインポリシーがラウンド数により良い依存で後悔を達成できないことを示す難易度結果を示す。
最後に,oracle access のメンバシップによるリニアプログラムの最適化としてプラットフォームの問題を定式化することにより,ラウンド数に対数依存性があるにも関わらず,多項式依存性を伴って後悔を実現する,第2のオンラインポリシを提案する。
関連論文リスト
- Ad-load Balancing via Off-policy Learning in a Content Marketplace [9.783697404304025]
広告ロードバランシングは、オンライン広告システム、特にソーシャルメディアプラットフォームにおける重要な課題である。
従来のアドロードバランシングのアプローチは静的アロケーションポリシに依存しており、ユーザの好みやコンテキスト要因の変更に適応できない。
本稿では、ログ化された盗聴フィードバックから、政治外の学習と評価を活用するアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:17:07Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Eliciting User Preferences for Personalized Multi-Objective Decision
Making through Comparative Feedback [76.7007545844273]
目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。
我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。
少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T23:58:19Z) - Meta Policy Learning for Cold-Start Conversational Recommendation [71.13044166814186]
メタ強化学習を用いて冷間開始ユーザを対象としたCRSポリシー学習について検討する。
政策適応を容易にするために,3つの相乗成分を設計する。
論文 参考訳(メタデータ) (2022-05-24T05:06:52Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Dynamic Slate Recommendation with Gated Recurrent Units and Thompson
Sampling [6.312395952874578]
我々は,インターネットプラットフォームのユーザに対して,アイテムリストとしてslatesという,関連するコンテンツを推薦する問題を考える。
本稿では,インターネットプラットフォームとユーザ間のインタラクションの時系列に作用する変分ベイズ型リカレントニューラルネットレコメンデータシステムを提案する。
我々は,探索的レコメンデーション戦略が,同程度以上の欲望に対して有効であることを実験的に示す。
論文 参考訳(メタデータ) (2021-04-30T15:16:35Z) - Random Walks with Erasure: Diversifying Personalized Recommendations on
Social and Information Networks [4.007832851105161]
ユーザ・項目グラフのランダムウォーク探索を改良することにより,情報多様性の向上を目標とした新しい推薦フレームワークを開発した。
ソーシャルネットワーク上での政治コンテンツを推薦するために,まず,利用者と共有するコンテンツのイデオロギー的立場を推定する新しいモデルを提案する。
これらの推定位置に基づいて,新しいランダムウォークに基づくレコメンデーションアルゴリズムを用いて,多様なパーソナライズドレコメンデーションを生成する。
論文 参考訳(メタデータ) (2021-02-18T21:53:32Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Robust Active Preference Elicitation [10.961537256186498]
ペアワイズ比較クエリを適度に数えることで、意思決定者の好みを抽出する問題について検討する。
私たちは、不足するリソースを割り当てるためのポリシーを選択する場合など、高利害ドメインのアプリケーションによって動機付けられています。
論文 参考訳(メタデータ) (2020-03-04T05:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。