論文の概要: Incentivizing Exploration with Selective Data Disclosure
- arxiv url: http://arxiv.org/abs/1811.06026v7
- Date: Wed, 13 Nov 2024 01:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:21:27.435886
- Title: Incentivizing Exploration with Selective Data Disclosure
- Title(参考訳): 選択的データ開示による探索のインセンティブ付け
- Authors: Nicole Immorlica, Jieming Mao, Aleksandrs Slivkins, Zhiwei Steven Wu,
- Abstract要約: 効率的な探索を促すレコメンデーションシステムを提案し設計する。
エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。
フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
- 参考スコア(独自算出の注目度): 70.11902902106014
- License:
- Abstract: We propose and design recommendation systems that incentivize efficient exploration. Agents arrive sequentially, choose actions and receive rewards, drawn from fixed but unknown action-specific distributions. The recommendation system presents each agent with actions and rewards from a subsequence of past agents, chosen ex ante. Thus, the agents engage in sequential social learning, moderated by these subsequences. We asymptotically attain optimal regret rate for exploration, using a flexible frequentist behavioral model and mitigating rationality and commitment assumptions inherent in prior work. We suggest three components of effective recommendation systems: independent focus groups, group aggregators, and interlaced information structures.
- Abstract(参考訳): 効率的な探索を促すレコメンデーションシステムを提案し設計する。
エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。
このレコメンデーションシステムは、選択された元アンテの過去のエージェントのサブシーケンスからのアクションと報酬を各エージェントに提示する。
このように、エージェントは、これらのサブシーケンスによって中等化される、シーケンシャルな社会的学習に従事している。
我々は、フレキシブルな頻繁な行動モデルを用いて、事前の作業に固有の合理性とコミットメントの仮定を緩和し、探索のために最適な後悔率を漸近的に達成する。
効果的な推薦システムの3つの構成要素として,独立したフォーカスグループ,グループアグリゲータ,インターレース情報構造を提案する。
関連論文リスト
- Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Long-term Dynamics of Fairness Intervention in Connection Recommender
Systems [5.048563042541915]
本稿では,Webスケールのソーシャルネットワークが採用するシステムにパターン化されたコネクションレコメンデータシステムについて検討する。
全体としては公平に思われるが、共通露出とユーティリティパリティの介入は、長期的なバイアスの増幅を緩和することができない。
論文 参考訳(メタデータ) (2022-03-30T16:27:48Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - D2RLIR : an improved and diversified ranking function in interactive
recommendation systems based on deep reinforcement learning [0.3058685580689604]
本稿では,アクタ・クリティカルアーキテクチャを用いた深層強化学習に基づく推薦システムを提案する。
提案モデルでは,ユーザの嗜好に基づいて,多様かつ関連性の高いレコメンデーションリストを生成することができる。
論文 参考訳(メタデータ) (2021-10-28T13:11:29Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。