論文の概要: Incentivising Exploration and Recommendations for Contextual Bandits
with Payments
- arxiv url: http://arxiv.org/abs/2001.07853v1
- Date: Wed, 22 Jan 2020 02:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 18:13:37.258328
- Title: Incentivising Exploration and Recommendations for Contextual Bandits
with Payments
- Title(参考訳): 支払いを伴う文脈帯域の探索と勧告のインセンティブ
- Authors: Priyank Agrawal and Theja Tulabandhula
- Abstract要約: 本研究では,累積的社会福祉を最大化しながら,プラットフォームが項目固有の属性を学習し,サブリニアな後悔を実現する方法を示す。
弊社のアプローチは、eコマースストアやレコメンデーションエンジン、マッチングプラットフォーム上のユーザのエンゲージメント指標を改善できる。
- 参考スコア(独自算出の注目度): 2.5966580648312223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a contextual bandit based model to capture the learning and social
welfare goals of a web platform in the presence of myopic users. By using
payments to incentivize these agents to explore different
items/recommendations, we show how the platform can learn the inherent
attributes of items and achieve a sublinear regret while maximizing cumulative
social welfare. We also calculate theoretical bounds on the cumulative costs of
incentivization to the platform. Unlike previous works in this domain, we
consider contexts to be completely adversarial, and the behavior of the
adversary is unknown to the platform. Our approach can improve various
engagement metrics of users on e-commerce stores, recommendation engines and
matching platforms.
- Abstract(参考訳): 筋電図利用者の存在下で,Webプラットフォームの学習目標と社会福祉目標を捉えるための文脈的包帯モデルを提案する。
本研究では、これらのエージェントにインセンティブを与えて異なる項目や勧告を探索することにより、プラットフォームがアイテム固有の属性を学習し、累積的社会福祉を最大化しながらサブ線形後悔を実現する方法を示す。
また,プラットフォームへのインセンティブの累積コストに関する理論的境界を計算する。
この領域における以前の研究とは異なり、状況は完全に敵対的であり、敵の行動がプラットフォームに未知である。
当社のアプローチは,eコマースストア,レコメンデーションエンジン,マッチングプラットフォーム上でのユーザのエンゲージメント指標を改善できる。
関連論文リスト
- User Welfare Optimization in Recommender Systems with Competing Content Creators [65.25721571688369]
本研究では,コンテンツ制作者間での競争ゲーム環境下で,システム側ユーザ福祉の最適化を行う。
本稿では,推奨コンテンツの満足度に基づいて,各ユーザの重みの列を動的に計算する,プラットフォームのためのアルゴリズムソリューションを提案する。
これらの重みはレコメンデーションポリシーやポストレコメンデーション報酬を調整するメカニズムの設計に利用され、それによってクリエイターのコンテンツ制作戦略に影響を与える。
論文 参考訳(メタデータ) (2024-04-28T21:09:52Z) - Preferences Evolve And So Should Your Bandits: Bandits with Evolving States for Online Platforms [12.368291979686122]
本稿では,決定論的に進化し,観測不能な状態を考慮しながら,帯域幅フィードバックによる学習モデルを提案する。
我々のモデルにおけるワークホースの応用は、レコメンデーションシステムのための学習とオンライン広告のための学習である。
論文 参考訳(メタデータ) (2023-07-21T15:43:32Z) - Online Learning in a Creator Economy [91.55437924091844]
われわれはクリエーター経済を、ユーザー、プラットフォーム、コンテンツクリエーターの3人組ゲームとして研究している。
私たちは、リターンベースの契約とフィーチャーベースの契約の2つのファミリーを分析します。
滑らかな仮定の下では、リターンベースの契約とレコメンデーションポリシーの協調最適化が後悔をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-19T01:58:13Z) - Interactive Learning with Pricing for Optimal and Stable Allocations in
Markets [12.580391999838128]
大規模オンラインレコメンデーションシステムは、ユーザのフィードバックから好みを学習しながら、競合するユーザ間で限られた数のアイテムの割り当てを容易にする必要がある。
我々のフレームワークは、報酬を楽観的に最大化するアロケーションを探索することで、レコメンデーションの品質を高める。
不安定性を最小限に抑えるため、推薦されたアロケーションから逸脱するユーザのインセンティブを測定するため、アルゴリズムはWalrasian equilibriaから派生したスキームに基づいてアイテムを価格設定する。
本手法は, 帯域幅, 最適資源配分, 協調フィルタリングの手法を統合し, サブリニアな社会福祉の後悔と, サブリニアな不安定性を実現するアルゴリズムを得るための最初の手法である。
論文 参考訳(メタデータ) (2022-12-13T20:33:54Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Personalized multi-faceted trust modeling to determine trust links in
social media and its potential for misinformation management [61.88858330222619]
ソーシャルメディアにおけるピア間の信頼関係を予測するためのアプローチを提案する。
本稿では,データ駆動型多面信頼モデルを提案する。
信頼を意識したアイテムレコメンデーションタスクで説明され、提案したフレームワークを大規模なYelpデータセットのコンテキストで評価する。
論文 参考訳(メタデータ) (2021-11-11T19:40:51Z) - Dynamic Slate Recommendation with Gated Recurrent Units and Thompson
Sampling [6.312395952874578]
我々は,インターネットプラットフォームのユーザに対して,アイテムリストとしてslatesという,関連するコンテンツを推薦する問題を考える。
本稿では,インターネットプラットフォームとユーザ間のインタラクションの時系列に作用する変分ベイズ型リカレントニューラルネットレコメンデータシステムを提案する。
我々は,探索的レコメンデーション戦略が,同程度以上の欲望に対して有効であることを実験的に示す。
論文 参考訳(メタデータ) (2021-04-30T15:16:35Z) - Incentivizing Exploration in Linear Bandits under Information Gap [50.220743323750035]
線形バンディットにおけるミオピックユーザに対するインセンティブ探索の問題点について検討した。
長期報酬を最大化するために、システムは、ユーザに探索的な腕を引くインセンティブを与えるための補償を提供する。
論文 参考訳(メタデータ) (2021-04-08T16:01:56Z) - Incentive Mechanism Design for Resource Sharing in Collaborative Edge
Learning [106.51930957941433]
5GとBeyondネットワークでは、人工知能のアプリケーションがますます普及すると予想されている。
これは、現在のクラウド中心のモデルトレーニングアプローチから、エッジラーニングとして知られるエッジコンピューティングベースの協調学習スキームへのパラダイムシフトを必要とする。
論文 参考訳(メタデータ) (2020-05-31T12:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。