論文の概要: Interactive Learning with Pricing for Optimal and Stable Allocations in
Markets
- arxiv url: http://arxiv.org/abs/2212.06891v1
- Date: Tue, 13 Dec 2022 20:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 17:44:58.574779
- Title: Interactive Learning with Pricing for Optimal and Stable Allocations in
Markets
- Title(参考訳): 市場における最適・安定割当のための価格付きインタラクティブラーニング
- Authors: Yigit Efe Erginbas, Soham Phade, Kannan Ramchandran
- Abstract要約: 大規模オンラインレコメンデーションシステムは、ユーザのフィードバックから好みを学習しながら、競合するユーザ間で限られた数のアイテムの割り当てを容易にする必要がある。
我々のフレームワークは、報酬を楽観的に最大化するアロケーションを探索することで、レコメンデーションの品質を高める。
不安定性を最小限に抑えるため、推薦されたアロケーションから逸脱するユーザのインセンティブを測定するため、アルゴリズムはWalrasian equilibriaから派生したスキームに基づいてアイテムを価格設定する。
本手法は, 帯域幅, 最適資源配分, 協調フィルタリングの手法を統合し, サブリニアな社会福祉の後悔と, サブリニアな不安定性を実現するアルゴリズムを得るための最初の手法である。
- 参考スコア(独自算出の注目度): 12.580391999838128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale online recommendation systems must facilitate the allocation of a
limited number of items among competing users while learning their preferences
from user feedback. As a principled way of incorporating market constraints and
user incentives in the design, we consider our objectives to be two-fold:
maximal social welfare with minimal instability. To maximize social welfare,
our proposed framework enhances the quality of recommendations by exploring
allocations that optimistically maximize the rewards. To minimize instability,
a measure of users' incentives to deviate from recommended allocations, the
algorithm prices the items based on a scheme derived from the Walrasian
equilibria. Though it is known that these equilibria yield stable prices for
markets with known user preferences, our approach accounts for the inherent
uncertainty in the preferences and further ensures that the users accept their
recommendations under offered prices. To the best of our knowledge, our
approach is the first to integrate techniques from combinatorial bandits,
optimal resource allocation, and collaborative filtering to obtain an algorithm
that achieves sub-linear social welfare regret as well as sub-linear
instability. Empirical studies on synthetic and real-world data also
demonstrate the efficacy of our strategy compared to approaches that do not
fully incorporate all these aspects.
- Abstract(参考訳): 大規模オンラインレコメンデーションシステムは、ユーザのフィードバックから好みを学習しながら、競合するユーザ間で限られた数のアイテムの割り当てを促進する必要がある。
市場制約とユーザのインセンティブをデザインに組み込む原則的な方法として,我々は,私たちの目的を,最小限の不安定さを持つ最大社会福祉の2つに分類する。
社会福祉を最大化するために,提案フレームワークは,報奨を楽観的に最大化する割り当てを探索することで,推薦の質を高める。
ユーザの推奨割り当てから逸脱するインセンティブである不安定さを最小限に抑えるために、このアルゴリズムは、walrasian equilibriaから派生したスキームに基づいてアイテムを価格設定する。
これらの均衡は、既知のユーザ嗜好を持つ市場で安定した価格をもたらすことが知られているが、当社のアプローチは、嗜好に固有の不確実性をもたらし、ユーザが提示された価格の下でレコメンデーションを受け入れることをさらに確実にする。
我々の知識を最大限に活用するために,我々のアプローチは,組合せ帯域幅,最適資源配分,協調フィルタリングといった手法を初めて統合し,サブ線形社会福祉の後悔とサブ線形不安定性を実現するアルゴリズムを得る。
人工的および実世界のデータに関する実証的研究は、これらの全ての側面を完全に包含していないアプローチと比較して、我々の戦略の有効性を示す。
関連論文リスト
- OptiGrad: A Fair and more Efficient Price Elasticity Optimization via a Gradient Based Learning [7.145413681946911]
本稿では,非生命保険市場の利益率を勾配降下法により最適化する新しい手法を提案する。
1)利益マージンの最大化、2)転換率の確保、3)人口比率(DP)などの公正基準の実施の3つの主要な目標を目標としている。
論文 参考訳(メタデータ) (2024-04-16T04:21:59Z) - Rethinking and Benchmarking Predict-then-Optimize Paradigm for
Combinatorial Optimization Problems [62.25108152764568]
多くのWebアプリケーションは、エネルギーコストを考慮したスケジューリング、Web広告の予算配分、ソーシャルネットワークでのグラフマッチングなど、最適化問題の解決に頼っている。
統一システムにおける予測と意思決定の性能について考察する。
我々は、現在のアプローチを包括的に分類し、既存の実験シナリオを統合する。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Insurance pricing on price comparison websites via reinforcement
learning [7.023335262537794]
本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。
また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
論文 参考訳(メタデータ) (2023-08-14T04:44:56Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Interactive Recommendations for Optimal Allocations in Markets with
Constraints [12.580391999838128]
本稿では,システムプロバイダがユーザへのレコメンデーションの質を高めるためのインタラクティブなフレームワークを提案する。
我々は,協調フィルタリング,帯域幅,最適資源配分といった手法を用いた統合的アプローチを採用する。
人工マトリックスと実世界のデータに関する実証研究は,本手法の有効性と性能を実証している。
論文 参考訳(メタデータ) (2022-07-08T22:16:51Z) - Stochastic Online Fisher Markets: Static Pricing Limits and Adaptive Enhancements [3.2732273647357437]
我々は、民間で知られたユーティリティーと予算パラメーターを持つユーザが順次到着する、オンライン型のフィッシャーマーケットについて研究する。
この設定では,まず静的な価格設定アルゴリズムの限界について検討し,全ユーザに対して均一な価格設定を行う。
我々は,ユーザの予算とユーティリティパラメータの分布を熟知した適応型ポストプライシングアルゴリズムを設計し,ユーザ消費の過去の観測に基づいて価格を調整した。
論文 参考訳(メタデータ) (2022-04-27T05:03:45Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - Achieving Counterfactual Fairness for Causal Bandit [18.077963117600785]
期待される報酬を最大化するために、各ステップでアイテムを推薦する方法を研究します。
次に, 対実的個人的公正性を達成するためのフェア因果バンドイット(F-UCB)を提案する。
論文 参考訳(メタデータ) (2021-09-21T23:44:48Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Fairness, Welfare, and Equity in Personalized Pricing [88.9134799076718]
顧客特性に基づくパーソナライズ価格における公平性、福祉、株式の配慮の相互作用について検討する。
選択ワクチンの価格補助金と、マイクロクレジットの下流結果に対するパーソナライズされた利率の影響の2つの設定において、パーソナライズされた価格の潜在的利点を示す。
論文 参考訳(メタデータ) (2020-12-21T01:01:56Z) - Learning Strategies in Decentralized Matching Markets under Uncertain
Preferences [91.3755431537592]
エージェントの選好が不明な場合,共有資源の不足の設定における意思決定の問題について検討する。
我々のアプローチは、再生されたカーネルヒルベルト空間における好みの表現に基づいている。
エージェントの期待した利益を最大化する最適な戦略を導出する。
論文 参考訳(メタデータ) (2020-10-29T03:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。