論文の概要: Online Bayesian Recommendation with No Regret
- arxiv url: http://arxiv.org/abs/2202.06135v1
- Date: Sat, 12 Feb 2022 20:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 18:22:55.934846
- Title: Online Bayesian Recommendation with No Regret
- Title(参考訳): 規則のないオンラインベイズ勧告
- Authors: Yiding Feng, Wei Tang, Haifeng Xu
- Abstract要約: プラットフォームのためのオンラインベイズレコメンデーション問題について検討する。
プライベートな好みと信念を持つユーザに対して、プラットフォームはレコメンデーション戦略にコミットする。
適応的なオンライン政策がラウンド数への依存度を高めて後悔を達成できないことを示す。
- 参考スコア(独自算出の注目度): 32.520840260180535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce and study the online Bayesian recommendation problem for a
platform, who can observe a utility-relevant state of a product, repeatedly
interacting with a population of myopic users through an online recommendation
mechanism. This paradigm is common in a wide range of scenarios in the current
Internet economy. For each user with her own private preference and belief, the
platform commits to a recommendation strategy to utilize his information
advantage on the product state to persuade the self-interested user to follow
the recommendation. The platform does not know user's preferences and beliefs,
and has to use an adaptive recommendation strategy to persuade with gradually
learning user's preferences and beliefs in the process.
We aim to design online learning policies with no Stackelberg regret for the
platform, i.e., against the optimum policy in hindsight under the assumption
that users will correspondingly adapt their behaviors to the benchmark policy.
Our first result is an online policy that achieves double logarithm regret
dependence on the number of rounds. We then present a hardness result showing
that no adaptive online policy can achieve regret with better dependency on the
number of rounds. Finally, by formulating the platform's problem as optimizing
a linear program with membership oracle access, we present our second online
policy that achieves regret with polynomial dependence on the number of states
but logarithm dependence on the number of rounds.
- Abstract(参考訳): 我々は,オンライン・レコメンデーション・メカニズムを用いて,ユーザ集団と繰り返し対話しながら,製品の実用的関連状態を観察できるプラットフォームに対して,オンライン・ベイズ・レコメンデーション問題を紹介し,検討する。
このパラダイムは、現在のインターネット経済における幅広いシナリオにおいて一般的です。
自身の個人的な好みと信念を持つ各ユーザに対して、プラットフォームは、自身の情報優位性をプロダクトステートに活用して、自己関心のあるユーザにその推奨に従うように説得するための推奨戦略をコミットする。
プラットフォームはユーザの好みや信念を知らないため、プロセスにおけるユーザの好みや信念を徐々に学習するように、適応的な推奨戦略を使用する必要があります。
我々は、Stackelbergがプラットフォームに後悔せずにオンライン学習ポリシーを設計すること、すなわち、ユーザがベンチマークポリシーに対応する行動を適用するという仮定の下で、後ろ向きに最適なポリシーに反対することを目的としている。
私たちの最初の成果は、ラウンド数に対する二重対数後悔を達成できるオンラインポリシーです。
次に、適応的なオンラインポリシーがラウンド数により良い依存で後悔を達成できないことを示す難易度結果を示す。
最後に,oracle access のメンバシップによるリニアプログラムの最適化としてプラットフォームの問題を定式化することにより,ラウンド数に対数依存性があるにも関わらず,多項式依存性を伴って後悔を実現する,第2のオンラインポリシを提案する。
関連論文リスト
- FedSlate:A Federated Deep Reinforcement Learning Recommender System [18.641244204682536]
推薦システムにおける長期ユーザエンゲージメントの最適化に強化学習法が用いられている。
潜在的な解決策の1つは、さまざまなプラットフォームから集中した場所にデータを集約し、集約されたデータをトレーニングに使用することである。
このアプローチは、通信コストの増加やユーザプライバシに対する潜在的な脅威など、経済的および法的懸念を提起する。
法的なレベルでの共有が禁止されている情報を効果的に活用する強化学習推薦アルゴリズムである textbfFedSlate を提案する。
論文 参考訳(メタデータ) (2024-09-23T10:10:24Z) - Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - A Model-based Multi-Agent Personalized Short-Video Recommender System [19.03089585214444]
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。
提案フレームワークでは,サンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用している。
提案手法は,当社の大規模ショートビデオ共有プラットフォームに導入されている。
論文 参考訳(メタデータ) (2024-05-03T04:34:36Z) - User Welfare Optimization in Recommender Systems with Competing Content Creators [65.25721571688369]
本研究では,コンテンツ制作者間での競争ゲーム環境下で,システム側ユーザ福祉の最適化を行う。
本稿では,推奨コンテンツの満足度に基づいて,各ユーザの重みの列を動的に計算する,プラットフォームのためのアルゴリズムソリューションを提案する。
これらの重みはレコメンデーションポリシーやポストレコメンデーション報酬を調整するメカニズムの設計に利用され、それによってクリエイターのコンテンツ制作戦略に影響を与える。
論文 参考訳(メタデータ) (2024-04-28T21:09:52Z) - Ad-load Balancing via Off-policy Learning in a Content Marketplace [9.783697404304025]
広告ロードバランシングは、オンライン広告システム、特にソーシャルメディアプラットフォームにおける重要な課題である。
従来のアドロードバランシングのアプローチは静的アロケーションポリシに依存しており、ユーザの好みやコンテキスト要因の変更に適応できない。
本稿では、ログ化された盗聴フィードバックから、政治外の学習と評価を活用するアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:17:07Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Eliciting User Preferences for Personalized Multi-Objective Decision
Making through Comparative Feedback [76.7007545844273]
目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。
我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。
少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T23:58:19Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Robust Active Preference Elicitation [10.961537256186498]
ペアワイズ比較クエリを適度に数えることで、意思決定者の好みを抽出する問題について検討する。
私たちは、不足するリソースを割り当てるためのポリシーを選択する場合など、高利害ドメインのアプリケーションによって動機付けられています。
論文 参考訳(メタデータ) (2020-03-04T05:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。