論文の概要: Dynamic Online Recommendation for Two-Sided Market with Bayesian Incentive Compatibility
- arxiv url: http://arxiv.org/abs/2406.04374v1
- Date: Tue, 4 Jun 2024 23:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:49:00.531742
- Title: Dynamic Online Recommendation for Two-Sided Market with Bayesian Incentive Compatibility
- Title(参考訳): ベイジアンインセンティブ適合性を有する2層市場に対する動的オンライン勧告
- Authors: Yuantong Li, Guang Cheng, Xiaowu Dai,
- Abstract要約: オンラインの嗜好学習環境において,インセンティブを意識したリコメンデーションのための原則的アプローチを提案する。
我々の研究は、オンラインの嗜好学習環境におけるインセンティブを意識したレコメンデーションに原則化されたアプローチを提供する。
- 参考スコア(独自算出の注目度): 13.069703665055084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems play a crucial role in internet economies by connecting users with relevant products or services. However, designing effective recommender systems faces two key challenges: (1) the exploration-exploitation tradeoff in balancing new product exploration against exploiting known preferences, and (2) dynamic incentive compatibility in accounting for users' self-interested behaviors and heterogeneous preferences. This paper formalizes these challenges into a Dynamic Bayesian Incentive-Compatible Recommendation Protocol (DBICRP). To address the DBICRP, we propose a two-stage algorithm (RCB) that integrates incentivized exploration with an efficient offline learning component for exploitation. In the first stage, our algorithm explores available products while maintaining dynamic incentive compatibility to determine sufficient sample sizes. The second stage employs inverse proportional gap sampling integrated with an arbitrary machine learning method to ensure sublinear regret. Theoretically, we prove that RCB achieves $O(\sqrt{KdT})$ regret and satisfies Bayesian incentive compatibility (BIC) under a Gaussian prior assumption. Empirically, we validate RCB's strong incentive gain, sublinear regret, and robustness through simulations and a real-world application on personalized warfarin dosing. Our work provides a principled approach for incentive-aware recommendation in online preference learning settings.
- Abstract(参考訳): レコメンダシステムは、ユーザを関連製品やサービスに結びつけることで、インターネット経済において重要な役割を担っている。
しかし, 効果的なレコメンデーションシステムの設計には, 1) 既知の嗜好の活用に対する新製品探索のバランスをとるための探索・探索のトレードオフ, (2) ユーザの自己関心行動や異種嗜好を考慮した動的インセンティブの相違, という2つの課題がある。
本稿では,これらの課題をDBICRP(Dynamic Bayesian Incentive-Compatible Recommendation Protocol)に形式化する。
DBICRPに対処するために、インセンティブ付き探索と効率的なオフライン学習コンポーネントを統合する2段階アルゴリズム(RCB)を提案する。
第1段階で,本アルゴリズムは,十分なサンプルサイズを決定するために,動的インセンティブ互換性を維持しつつ,利用可能な製品を探索する。
第2段階では、任意の機械学習手法と統合された逆比例ギャップサンプリングを用いて、サブ線形後悔を保証する。
理論的には、RCBが$O(\sqrt{KdT})を後悔し、ガウス的前提の下でベイズ的インセンティブ互換性(BIC)を満たすことを証明している。
RCBの強いインセンティブの獲得、サブリニアな後悔、そしてシミュレーションによる堅牢性、そしてパーソナライズされたワーファリン投与に対する現実世界の応用を実証的に検証する。
我々の研究は、オンラインの嗜好学習環境におけるインセンティブを意識したレコメンデーションに原則化されたアプローチを提供する。
関連論文リスト
- A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - CARE: Confidence-rich Autonomous Robot Exploration using Bayesian Kernel
Inference and Optimization [12.32946442160165]
未知・複雑な環境における情報に基づく自律ロボット探査の効率化を検討する。
ベイジアンカーネル推論と最適化に基づく新しい軽量情報ゲイン推定法(BKIO)を提案する。
異なる非構造, 乱雑な環境下での探索性能を損なうことなく, 提案手法の所望の効率性を示す。
論文 参考訳(メタデータ) (2023-09-11T02:30:06Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - A Bandit Approach to Online Pricing for Heterogeneous Edge Resource
Allocation [8.089950414444115]
ヘテロジニアスなエッジリソース割り当てのための2つの新しいオンライン価格設定機構が提案されている。
このメカニズムはリアルタイムで動作し、需要分布に関する事前の知識を必要としない。
提案した価格体系では, 利用者が好みのリソースを選択し, 支払うことができ, 観測された履歴データに基づいて動的に資源価格を調整できる。
論文 参考訳(メタデータ) (2023-02-14T10:21:14Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Learning Similarity Preserving Binary Codes for Recommender Systems [5.799838997511804]
我々は、ハッシュベースのレコメンデータシステム、すなわち、コンパクトクロスシミラリティレコメンダ(CCSR)のための未探索モジュールの組み合わせについて研究する。
クロスモーダル検索にインスパイアされたCCSRは、行列分解や評価再構成の代わりにPosteriori類似性を利用して、ユーザとアイテム間のインタラクションをモデル化する。
MovieLens1Mデータセットでは、絶対的なパフォーマンス改善はNDCGが15.69%、リコールが4.29%である。
論文 参考訳(メタデータ) (2022-04-18T21:33:59Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。