論文の概要: Learning with Exposure Constraints in Recommendation Systems
- arxiv url: http://arxiv.org/abs/2302.01377v2
- Date: Fri, 10 Nov 2023 09:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 18:26:43.789862
- Title: Learning with Exposure Constraints in Recommendation Systems
- Title(参考訳): レコメンデーションシステムにおける露出制約による学習
- Authors: Omer Ben-Porat and Rotem Torkan
- Abstract要約: 本研究では,コンテントプロバイダの露出依存性をモデル化するためのコンテキスト的マルチアームバンディット設定を提案する。
我々は,アルゴリズムが対数的因子に最適であることを示す下位境界とともに,サブ線形後悔を伴うアルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 7.397067779113841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommendation systems are dynamic economic systems that balance the needs of
multiple stakeholders. A recent line of work studies incentives from the
content providers' point of view. Content providers, e.g., vloggers and
bloggers, contribute fresh content and rely on user engagement to create
revenue and finance their operations. In this work, we propose a contextual
multi-armed bandit setting to model the dependency of content providers on
exposure. In our model, the system receives a user context in every round and
has to select one of the arms. Every arm is a content provider who must receive
a minimum number of pulls every fixed time period (e.g., a month) to remain
viable in later rounds; otherwise, the arm departs and is no longer available.
The system aims to maximize the users' (content consumers) welfare. To that
end, it should learn which arms are vital and ensure they remain viable by
subsidizing arm pulls if needed. We develop algorithms with sub-linear regret,
as well as a lower bound that demonstrates that our algorithms are optimal up
to logarithmic factors.
- Abstract(参考訳): 勧告システムは、複数の利害関係者のニーズのバランスをとる動的な経済システムである。
最近の研究は、コンテンツ提供者の視点によるインセンティブの研究である。
コンテンツプロバイダ(vloggersやbloggersなど)は、新鮮なコンテンツを提供し、ユーザーエンゲージメントを頼りに収益を創出し、運営に資金を提供する。
本研究では,コンテントプロバイダの露出依存性をモデル化するためのコンテキスト的マルチアームバンディット設定を提案する。
本モデルでは,各ラウンドでユーザコンテキストを受信し,各アームを選択する必要がある。
すべてのarmはコンテンツプロバイダであり、一定期間(例えば1ヶ月)ごとに最小数のプルを受け取り、後続のラウンドで存続しなければならない。
本システムは,利用者の福祉を最大化することを目的とする。
そのためには、どの腕が不可欠かを学び、必要であれば腕の引っ張りを補助することで、それを確実に維持する必要がある。
我々は,アルゴリズムが対数的因子に最適であることを示す下位境界とともに,サブ線形後悔を伴うアルゴリズムを開発する。
関連論文リスト
- Algorithmic Content Selection and the Impact of User Disengagement [19.14804091327051]
本稿では、不満を抱いた利用者が不満を抱く可能性のあるコンテンツ選択問題に対するモデルを提案する。
両腕の期待報酬とユーザ満足度との関係が線形に関係している場合、最適なコンテンツ選択ポリシーを効率的に計算できることを示す。
論文 参考訳(メタデータ) (2024-10-17T00:43:06Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - User Welfare Optimization in Recommender Systems with Competing Content Creators [65.25721571688369]
本研究では,コンテンツ制作者間での競争ゲーム環境下で,システム側ユーザ福祉の最適化を行う。
本稿では,推奨コンテンツの満足度に基づいて,各ユーザの重みの列を動的に計算する,プラットフォームのためのアルゴリズムソリューションを提案する。
これらの重みはレコメンデーションポリシーやポストレコメンデーション報酬を調整するメカニズムの設計に利用され、それによってクリエイターのコンテンツ制作戦略に影響を与える。
論文 参考訳(メタデータ) (2024-04-28T21:09:52Z) - Preferences Evolve And So Should Your Bandits: Bandits with Evolving States for Online Platforms [12.368291979686122]
本稿では,決定論的に進化し,観測不能な状態を考慮しながら,帯域幅フィードバックによる学習モデルを提案する。
我々のモデルにおけるワークホースの応用は、レコメンデーションシステムのための学習とオンライン広告のための学習である。
論文 参考訳(メタデータ) (2023-07-21T15:43:32Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Information-Gathering in Latent Bandits [79.6953033727455]
本稿では,潜伏バンドにおける情報収集手法を提案する。
我々は、各州に対するエージェントの信念から、最高の腕を選ぶことは、より高い後悔を引き起こすことを示した。
また,腕を慎重に選択することで,状態分布の推定精度が向上することを示した。
論文 参考訳(メタデータ) (2022-07-08T01:15:12Z) - Modeling Content Creator Incentives on Algorithm-Curated Platforms [76.53541575455978]
本研究では,アルゴリズムの選択が露出ゲームにおける(ナッシュ)平衡の存在と性格にどのように影響するかを検討する。
本研究では、露出ゲームにおける平衡を数値的に見つけるためのツールを提案し、MovieLensとLastFMデータセットの監査結果を示す。
論文 参考訳(メタデータ) (2022-06-27T08:16:59Z) - Incentivized Bandit Learning with Self-Reinforcing User Preferences [9.233886766950054]
本稿では,多くのレコメンデーションシステムにおける実世界の現象を考慮したマルチアーム・バンディット(MAB)オンライン学習モデルについて検討する。
我々は「At-Least-$n$ Explore-Then-Commit」と「UCB-List」という2つのMABポリシーを提案する。
両ポリシーが$O(log T)$期待の後悔を達成し、$O(log T)$期待の支払いを時間軸で$T$で達成することを証明する。
論文 参考訳(メタデータ) (2021-05-19T01:06:32Z) - Incentivizing Exploration in Linear Bandits under Information Gap [50.220743323750035]
線形バンディットにおけるミオピックユーザに対するインセンティブ探索の問題点について検討した。
長期報酬を最大化するために、システムは、ユーザに探索的な腕を引くインセンティブを与えるための補償を提供する。
論文 参考訳(メタデータ) (2021-04-08T16:01:56Z) - Optimizing Long-term Social Welfare in Recommender Systems: A
Constrained Matching Approach [36.54379845220444]
一定レベルのユーザエンゲージメントを受けない限り、コンテンツプロバイダが存続できないような設定について検討する。
我々のモデルは、十分に多様な実現可能な提供者によって支えられる最大限の社会福祉と平衡に達することを保証します。
我々は、これらの結果が実用的意味でより公平であると主張する、ユーザの後悔と公平性のさまざまな概念に関連性を引き出す。
論文 参考訳(メタデータ) (2020-07-31T22:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。