Fugu-MT 論文翻訳(概要): Online Bayesian Recommendation with No Regret

論文の概要: Online Bayesian Recommendation with No Regret

arxiv url: http://arxiv.org/abs/2202.06135v1
Date: Sat, 12 Feb 2022 20:18:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-15 18:22:55.934846
Title: Online Bayesian Recommendation with No Regret
Title（参考訳）: 規則のないオンラインベイズ勧告
Authors: Yiding Feng, Wei Tang, Haifeng Xu
Abstract要約: プラットフォームのためのオンラインベイズレコメンデーション問題について検討する。プライベートな好みと信念を持つユーザに対して、プラットフォームはレコメンデーション戦略にコミットする。適応的なオンライン政策がラウンド数への依存度を高めて後悔を達成できないことを示す。
参考スコア（独自算出の注目度）: 32.520840260180535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce and study the online Bayesian recommendation problem for a platform, who can observe a utility-relevant state of a product, repeatedly interacting with a population of myopic users through an online recommendation mechanism. This paradigm is common in a wide range of scenarios in the current Internet economy. For each user with her own private preference and belief, the platform commits to a recommendation strategy to utilize his information advantage on the product state to persuade the self-interested user to follow the recommendation. The platform does not know user's preferences and beliefs, and has to use an adaptive recommendation strategy to persuade with gradually learning user's preferences and beliefs in the process. We aim to design online learning policies with no Stackelberg regret for the platform, i.e., against the optimum policy in hindsight under the assumption that users will correspondingly adapt their behaviors to the benchmark policy. Our first result is an online policy that achieves double logarithm regret dependence on the number of rounds. We then present a hardness result showing that no adaptive online policy can achieve regret with better dependency on the number of rounds. Finally, by formulating the platform's problem as optimizing a linear program with membership oracle access, we present our second online policy that achieves regret with polynomial dependence on the number of states but logarithm dependence on the number of rounds.
Abstract（参考訳）: 我々は,オンライン・レコメンデーション・メカニズムを用いて,ユーザ集団と繰り返し対話しながら,製品の実用的関連状態を観察できるプラットフォームに対して,オンライン・ベイズ・レコメンデーション問題を紹介し,検討する。このパラダイムは、現在のインターネット経済における幅広いシナリオにおいて一般的です。自身の個人的な好みと信念を持つ各ユーザに対して、プラットフォームは、自身の情報優位性をプロダクトステートに活用して、自己関心のあるユーザにその推奨に従うように説得するための推奨戦略をコミットする。プラットフォームはユーザの好みや信念を知らないため、プロセスにおけるユーザの好みや信念を徐々に学習するように、適応的な推奨戦略を使用する必要があります。我々は、Stackelbergがプラットフォームに後悔せずにオンライン学習ポリシーを設計すること、すなわち、ユーザがベンチマークポリシーに対応する行動を適用するという仮定の下で、後ろ向きに最適なポリシーに反対することを目的としている。私たちの最初の成果は、ラウンド数に対する二重対数後悔を達成できるオンラインポリシーです。次に、適応的なオンラインポリシーがラウンド数により良い依存で後悔を達成できないことを示す難易度結果を示す。最後に,oracle access のメンバシップによるリニアプログラムの最適化としてプラットフォームの問題を定式化することにより,ラウンド数に対数依存性があるにも関わらず,多項式依存性を伴って後悔を実現する,第2のオンラインポリシを提案する。

関連論文リスト

Churn-Aware Recommendation Planning under Aggregated Preference Feedback [6.261444979025644]
本稿では,近年の規制と技術の変化を動機とした逐次的意思決定問題について考察する。我々はRec-APCモデルを導入し、匿名ユーザを既知の先行ユーザ型から抽出する。最適ポリシが有限時間で純粋な利用に収束することを証明し、それらを効率的に計算するための分岐とバウンドのアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-06T19:22:47Z)
The Feedback Loop Between Recommendation Systems and Reactive Users [6.660458629649826]
ユーザの意見力学とレコメンデーションシステムとのフィードバックループをモデル化する。反応ポリシーは、ユーザーが望ましくない意見の変化を効果的に防いだり、制限したりするのにどう役立つかを示す。
論文参考訳（メタデータ） (2025-03-14T19:45:57Z)
Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。 LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文参考訳（メタデータ） (2025-01-23T16:37:44Z)
Algorithmic Content Selection and the Impact of User Disengagement [19.14804091327051]
デジタルサービスはコンテンツ選択において根本的なトレードオフに直面している。ユーザーエンゲージメントを維持するという長期的なメリットに対して、ハイリワードコンテンツから得た即時収益をバランスさせなければならない。
論文参考訳（メタデータ） (2024-10-17T00:43:06Z)
FedSlate:A Federated Deep Reinforcement Learning Recommender System [18.641244204682536]
推薦システムにおける長期ユーザエンゲージメントの最適化に強化学習法が用いられている。潜在的な解決策の1つは、さまざまなプラットフォームから集中した場所にデータを集約し、集約されたデータをトレーニングに使用することである。このアプローチは、通信コストの増加やユーザプライバシに対する潜在的な脅威など、経済的および法的懸念を提起する。法的なレベルでの共有が禁止されている情報を効果的に活用する強化学習推薦アルゴリズムである textbfFedSlate を提案する。
論文参考訳（メタデータ） (2024-09-23T10:10:24Z)
Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文参考訳（メタデータ） (2024-05-31T16:31:07Z)
A Model-based Multi-Agent Personalized Short-Video Recommender System [19.03089585214444]
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。提案フレームワークでは,サンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用している。提案手法は,当社の大規模ショートビデオ共有プラットフォームに導入されている。
論文参考訳（メタデータ） (2024-05-03T04:34:36Z)
User Welfare Optimization in Recommender Systems with Competing Content Creators [65.25721571688369]
本研究では,コンテンツ制作者間での競争ゲーム環境下で,システム側ユーザ福祉の最適化を行う。本稿では,推奨コンテンツの満足度に基づいて,各ユーザの重みの列を動的に計算する,プラットフォームのためのアルゴリズムソリューションを提案する。これらの重みはレコメンデーションポリシーやポストレコメンデーション報酬を調整するメカニズムの設計に利用され、それによってクリエイターのコンテンツ制作戦略に影響を与える。
論文参考訳（メタデータ） (2024-04-28T21:09:52Z)
Online Policy Learning and Inference by Matrix Completion [12.527541242185404]
我々は、集団的嗜好に基づく意思決定のための協調フィルタリングアプローチを採っている。本稿では,意思決定のための$varepsilon$-greedyポリシーと,帯域パラメータ推定のためのオンライン降下アルゴリズムを組み合わせた政策学習手法を提案する。推論のために,逆ポリシー重み付けに基づくオンラインデバイアス法を開発し,その正規性を確立する。
論文参考訳（メタデータ） (2024-04-26T13:19:27Z)
Ad-load Balancing via Off-policy Learning in a Content Marketplace [9.783697404304025]
広告ロードバランシングは、オンライン広告システム、特にソーシャルメディアプラットフォームにおける重要な課題である。従来のアドロードバランシングのアプローチは静的アロケーションポリシに依存しており、ユーザの好みやコンテキスト要因の変更に適応できない。本稿では、ログ化された盗聴フィードバックから、政治外の学習と評価を活用するアプローチを提案する。
論文参考訳（メタデータ） (2023-09-19T09:17:07Z)
Actions Speak What You Want: Provably Sample-Efficient Reinforcement Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文参考訳（メタデータ） (2023-07-26T10:24:17Z)
Eliciting User Preferences for Personalized Multi-Objective Decision Making through Comparative Feedback [76.7007545844273]
目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-07T23:58:19Z)
Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文参考訳（メタデータ） (2020-12-01T10:31:57Z)
Robust Active Preference Elicitation [10.961537256186498]
ペアワイズ比較クエリを適度に数えることで、意思決定者の好みを抽出する問題について検討する。私たちは、不足するリソースを割り当てるためのポリシーを選択する場合など、高利害ドメインのアプリケーションによって動機付けられています。
論文参考訳（メタデータ） (2020-03-04T05:24:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。