論文の概要: Learning with Exposure Constraints in Recommendation Systems
- arxiv url: http://arxiv.org/abs/2302.01377v1
- Date: Thu, 2 Feb 2023 19:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 18:36:10.916409
- Title: Learning with Exposure Constraints in Recommendation Systems
- Title(参考訳): レコメンデーションシステムにおける露出制約による学習
- Authors: Omer Ben-Porat and Rotem Torkan
- Abstract要約: 本研究では,コンテントプロバイダの露出依存性をモデル化するためのコンテキスト的マルチアームバンディット設定を提案する。
我々は,アルゴリズムが対数的因子に最適であることを示す下位境界とともに,サブ線形後悔を伴うアルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 11.878820609988697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommendation systems are dynamic economic systems that balance the needs of
multiple stakeholders. A recent line of work studies incentives from the
content providers' point of view. Content providers, e.g., vloggers and
bloggers, contribute fresh content and rely on user engagement to create
revenue and finance their operations. In this work, we propose a contextual
multi-armed bandit setting to model the dependency of content providers on
exposure. In our model, the system receives a user context in every round and
has to select one of the arms. Every arm is a content provider who must receive
a minimum number of pulls every fixed time period (e.g., a month) to remain
viable in later rounds; otherwise, the arm departs and is no longer available.
The system aims to maximize the users' (content consumers) welfare. To that
end, it should learn which arms are vital and ensure they remain viable by
subsidizing arm pulls if needed. We develop algorithms with sub-linear regret,
as well as a lower bound that demonstrates that our algorithms are optimal up
to logarithmic factors.
- Abstract(参考訳): 勧告システムは、複数の利害関係者のニーズのバランスをとる動的な経済システムである。
最近の研究は、コンテンツ提供者の視点によるインセンティブの研究である。
コンテンツプロバイダ(vloggersやbloggersなど)は、新鮮なコンテンツを提供し、ユーザーエンゲージメントを頼りに収益を創出し、運営に資金を提供する。
本研究では,コンテントプロバイダの露出依存性をモデル化するためのコンテキスト的マルチアームバンディット設定を提案する。
本モデルでは,各ラウンドでユーザコンテキストを受信し,各アームを選択する必要がある。
すべてのarmはコンテンツプロバイダであり、一定期間(例えば1ヶ月)ごとに最小数のプルを受け取り、後続のラウンドで存続しなければならない。
本システムは,利用者の福祉を最大化することを目的とする。
そのためには、どの腕が不可欠かを学び、必要であれば腕の引っ張りを補助することで、それを確実に維持する必要がある。
我々は,アルゴリズムが対数的因子に最適であることを示す下位境界とともに,サブ線形後悔を伴うアルゴリズムを開発する。
関連論文リスト
- Preferences Evolve And So Should Your Bandits: Bandits with Evolving
States for Online Platforms [12.368291979686122]
本稿では,決定論的に進化し,観測不能な状態を考慮しながら,帯域幅フィードバックによる学習モデルを提案する。
我々のモデルにおけるワークホースの応用は、レコメンデーションシステムのための学習とオンライン広告のための学習である。
論文 参考訳(メタデータ) (2023-07-21T15:43:32Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [69.11586678637816]
エージェントのインセンティブを尊重する新しい推薦システムを提案する。
両政策は, エージェントが過度の暴露から保護される, ポストフェアネス基準を満たすことを示す。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Interactive Recommendations for Optimal Allocations in Markets with
Constraints [12.580391999838128]
本稿では,システムプロバイダがユーザへのレコメンデーションの質を高めるためのインタラクティブなフレームワークを提案する。
我々は,協調フィルタリング,帯域幅,最適資源配分といった手法を用いた統合的アプローチを採用する。
人工マトリックスと実世界のデータに関する実証研究は,本手法の有効性と性能を実証している。
論文 参考訳(メタデータ) (2022-07-08T22:16:51Z) - Information-Gathering in Latent Bandits [79.6953033727455]
本稿では,潜伏バンドにおける情報収集手法を提案する。
我々は、各州に対するエージェントの信念から、最高の腕を選ぶことは、より高い後悔を引き起こすことを示した。
また,腕を慎重に選択することで,状態分布の推定精度が向上することを示した。
論文 参考訳(メタデータ) (2022-07-08T01:15:12Z) - Modeling Content Creator Incentives on Algorithm-Curated Platforms [76.53541575455978]
本研究では,アルゴリズムの選択が露出ゲームにおける(ナッシュ)平衡の存在と性格にどのように影響するかを検討する。
本研究では、露出ゲームにおける平衡を数値的に見つけるためのツールを提案し、MovieLensとLastFMデータセットの監査結果を示す。
論文 参考訳(メタデータ) (2022-06-27T08:16:59Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Incentivized Bandit Learning with Self-Reinforcing User Preferences [9.233886766950054]
本稿では,多くのレコメンデーションシステムにおける実世界の現象を考慮したマルチアーム・バンディット(MAB)オンライン学習モデルについて検討する。
我々は「At-Least-$n$ Explore-Then-Commit」と「UCB-List」という2つのMABポリシーを提案する。
両ポリシーが$O(log T)$期待の後悔を達成し、$O(log T)$期待の支払いを時間軸で$T$で達成することを証明する。
論文 参考訳(メタデータ) (2021-05-19T01:06:32Z) - Incentivizing Exploration in Linear Bandits under Information Gap [50.220743323750035]
線形バンディットにおけるミオピックユーザに対するインセンティブ探索の問題点について検討した。
長期報酬を最大化するために、システムは、ユーザに探索的な腕を引くインセンティブを与えるための補償を提供する。
論文 参考訳(メタデータ) (2021-04-08T16:01:56Z) - Optimizing Long-term Social Welfare in Recommender Systems: A
Constrained Matching Approach [36.54379845220444]
一定レベルのユーザエンゲージメントを受けない限り、コンテンツプロバイダが存続できないような設定について検討する。
我々のモデルは、十分に多様な実現可能な提供者によって支えられる最大限の社会福祉と平衡に達することを保証します。
我々は、これらの結果が実用的意味でより公平であると主張する、ユーザの後悔と公平性のさまざまな概念に関連性を引き出す。
論文 参考訳(メタデータ) (2020-07-31T22:40:47Z) - Competing Bandits: The Perils of Exploration Under Competition [119.39607854637798]
オンラインプラットフォーム上での探索と競争の相互作用について検討する。
私たちは、スタークコンペティションが企業に対して、低福祉につながる「欲張り」バンディットアルゴリズムにコミットするよう促すことに気付きました。
競争を弱めるための2つのチャンネルについて検討する。
論文 参考訳(メタデータ) (2020-07-20T14:19:08Z) - Value Variance Minimization for Learning Approximate Equilibrium in
Aggregation Systems [8.140037969280716]
集約システムにおける近似平衡解(ウィンウィン)の学習問題を考察する。
本稿では,集約システムにおける近似平衡解(ウィンウィン)の学習の問題について考察する。
論文 参考訳(メタデータ) (2020-03-16T10:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。