論文の概要: Incentivising Exploration and Recommendations for Contextual Bandits
with Payments
- arxiv url: http://arxiv.org/abs/2001.07853v1
- Date: Wed, 22 Jan 2020 02:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 18:13:37.258328
- Title: Incentivising Exploration and Recommendations for Contextual Bandits
with Payments
- Title(参考訳): 支払いを伴う文脈帯域の探索と勧告のインセンティブ
- Authors: Priyank Agrawal and Theja Tulabandhula
- Abstract要約: 本研究では,累積的社会福祉を最大化しながら,プラットフォームが項目固有の属性を学習し,サブリニアな後悔を実現する方法を示す。
弊社のアプローチは、eコマースストアやレコメンデーションエンジン、マッチングプラットフォーム上のユーザのエンゲージメント指標を改善できる。
- 参考スコア(独自算出の注目度): 2.5966580648312223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a contextual bandit based model to capture the learning and social
welfare goals of a web platform in the presence of myopic users. By using
payments to incentivize these agents to explore different
items/recommendations, we show how the platform can learn the inherent
attributes of items and achieve a sublinear regret while maximizing cumulative
social welfare. We also calculate theoretical bounds on the cumulative costs of
incentivization to the platform. Unlike previous works in this domain, we
consider contexts to be completely adversarial, and the behavior of the
adversary is unknown to the platform. Our approach can improve various
engagement metrics of users on e-commerce stores, recommendation engines and
matching platforms.
- Abstract(参考訳): 筋電図利用者の存在下で,Webプラットフォームの学習目標と社会福祉目標を捉えるための文脈的包帯モデルを提案する。
本研究では、これらのエージェントにインセンティブを与えて異なる項目や勧告を探索することにより、プラットフォームがアイテム固有の属性を学習し、累積的社会福祉を最大化しながらサブ線形後悔を実現する方法を示す。
また,プラットフォームへのインセンティブの累積コストに関する理論的境界を計算する。
この領域における以前の研究とは異なり、状況は完全に敵対的であり、敵の行動がプラットフォームに未知である。
当社のアプローチは,eコマースストア,レコメンデーションエンジン,マッチングプラットフォーム上でのユーザのエンゲージメント指標を改善できる。
関連論文リスト
- Preferences Evolve And So Should Your Bandits: Bandits with Evolving
States for Online Platforms [12.368291979686122]
本稿では,決定論的に進化し,観測不能な状態を考慮しながら,帯域幅フィードバックによる学習モデルを提案する。
我々のモデルにおけるワークホースの応用は、レコメンデーションシステムのための学習とオンライン広告のための学習である。
論文 参考訳(メタデータ) (2023-07-21T15:43:32Z) - Interpolating Item and User Fairness in Multi-Sided Recommendations [14.895597501976573]
問題(FAIR)という,新たなフェアレコメンデーションフレームワークを策定する
プラットフォームは適切なアイテム/ユーザフェアネスの定義を指定でき、支払いを希望する「公正度」を決定できる。
この新たな課題に直面して、学習行為と公正なレコメンデーションの実行を効果的にバランスさせる、FORMと呼ばれる低レベルのオンラインレコメンデーションアルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-06-12T15:00:58Z) - Online Learning in a Creator Economy [91.55437924091844]
われわれはクリエーター経済を、ユーザー、プラットフォーム、コンテンツクリエーターの3人組ゲームとして研究している。
私たちは、リターンベースの契約とフィーチャーベースの契約の2つのファミリーを分析します。
滑らかな仮定の下では、リターンベースの契約とレコメンデーションポリシーの協調最適化が後悔をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-19T01:58:13Z) - Interactive Learning with Pricing for Optimal and Stable Allocations in
Markets [12.580391999838128]
大規模オンラインレコメンデーションシステムは、ユーザのフィードバックから好みを学習しながら、競合するユーザ間で限られた数のアイテムの割り当てを容易にする必要がある。
我々のフレームワークは、報酬を楽観的に最大化するアロケーションを探索することで、レコメンデーションの品質を高める。
不安定性を最小限に抑えるため、推薦されたアロケーションから逸脱するユーザのインセンティブを測定するため、アルゴリズムはWalrasian equilibriaから派生したスキームに基づいてアイテムを価格設定する。
本手法は, 帯域幅, 最適資源配分, 協調フィルタリングの手法を統合し, サブリニアな社会福祉の後悔と, サブリニアな不安定性を実現するアルゴリズムを得るための最初の手法である。
論文 参考訳(メタデータ) (2022-12-13T20:33:54Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [69.11586678637816]
エージェントのインセンティブを尊重する新しい推薦システムを提案する。
両政策は, エージェントが過度の暴露から保護される, ポストフェアネス基準を満たすことを示す。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Personalized multi-faceted trust modeling to determine trust links in
social media and its potential for misinformation management [61.88858330222619]
ソーシャルメディアにおけるピア間の信頼関係を予測するためのアプローチを提案する。
本稿では,データ駆動型多面信頼モデルを提案する。
信頼を意識したアイテムレコメンデーションタスクで説明され、提案したフレームワークを大規模なYelpデータセットのコンテキストで評価する。
論文 参考訳(メタデータ) (2021-11-11T19:40:51Z) - Dynamic Slate Recommendation with Gated Recurrent Units and Thompson
Sampling [6.312395952874578]
我々は,インターネットプラットフォームのユーザに対して,アイテムリストとしてslatesという,関連するコンテンツを推薦する問題を考える。
本稿では,インターネットプラットフォームとユーザ間のインタラクションの時系列に作用する変分ベイズ型リカレントニューラルネットレコメンデータシステムを提案する。
我々は,探索的レコメンデーション戦略が,同程度以上の欲望に対して有効であることを実験的に示す。
論文 参考訳(メタデータ) (2021-04-30T15:16:35Z) - Incentivizing Exploration in Linear Bandits under Information Gap [50.220743323750035]
線形バンディットにおけるミオピックユーザに対するインセンティブ探索の問題点について検討した。
長期報酬を最大化するために、システムは、ユーザに探索的な腕を引くインセンティブを与えるための補償を提供する。
論文 参考訳(メタデータ) (2021-04-08T16:01:56Z) - Dual Side Deep Context-aware Modulation for Social Recommendation [50.59008227281762]
社会的関係と協調関係をモデル化する新しいグラフニューラルネットワークを提案する。
高次関係の上に、友人の情報とアイテムのアトラクションを捉えるために、双方向のコンテキスト認識変調を導入する。
論文 参考訳(メタデータ) (2021-03-16T11:08:30Z) - Incentive Mechanism Design for Resource Sharing in Collaborative Edge
Learning [106.51930957941433]
5GとBeyondネットワークでは、人工知能のアプリケーションがますます普及すると予想されている。
これは、現在のクラウド中心のモデルトレーニングアプローチから、エッジラーニングとして知られるエッジコンピューティングベースの協調学習スキームへのパラダイムシフトを必要とする。
論文 参考訳(メタデータ) (2020-05-31T12:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。