論文の概要: Learning Fair And Effective Points-Based Rewards Programs
- arxiv url: http://arxiv.org/abs/2506.03911v1
- Date: Wed, 04 Jun 2025 13:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.333753
- Title: Learning Fair And Effective Points-Based Rewards Programs
- Title(参考訳): 公正かつ効果的なポイントベースリワードプログラムの学習
- Authors: Chamsi Hssaine, Yichun Hu, Ciara Pike-Burke,
- Abstract要約: ポイントベースの報酬プログラムは、その実施における不公平な慣行の告発により精査されている。
ポイントベースの報酬プログラムを公平に設計する問題について検討し、その効果と公正性に反する2つの障害に着目した。
我々は、すべての顧客に対して同じ償還基準を使用する個人的公正報酬プログラムが、少なくとも1+ln 2$の損失を被っていることを示す。
本稿では,実験による点評価のリスクを制限する学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.465134753953128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Points-based rewards programs are a prevalent way to incentivize customer loyalty; in these programs, customers who make repeated purchases from a seller accumulate points, working toward eventual redemption of a free reward. These programs have recently come under scrutiny due to accusations of unfair practices in their implementation. Motivated by these concerns, we study the problem of fairly designing points-based rewards programs, with a focus on two obstacles that put fairness at odds with their effectiveness. First, due to customer heterogeneity, the seller should set different redemption thresholds for different customers to generate high revenue. Second, the relationship between customer behavior and the number of accumulated points is typically unknown; this requires experimentation which may unfairly devalue customers' previously earned points. We first show that an individually fair rewards program that uses the same redemption threshold for all customers suffers a loss in revenue of at most a factor of $1+\ln 2$, compared to the optimal personalized strategy that differentiates between customers. We then tackle the problem of designing temporally fair learning algorithms in the presence of demand uncertainty. Toward this goal, we design a learning algorithm that limits the risk of point devaluation due to experimentation by only changing the redemption threshold $O(\log T)$ times, over a horizon of length $T$. This algorithm achieves the optimal (up to polylogarithmic factors) $\widetilde{O}(\sqrt{T})$ regret in expectation. We then modify this algorithm to only ever decrease redemption thresholds, leading to improved fairness at a cost of only a constant factor in regret. Extensive numerical experiments show the limited value of personalization in average-case settings, in addition to demonstrating the strong practical performance of our proposed learning algorithms.
- Abstract(参考訳): ポイントベースの報酬プログラムは、顧客の忠誠心を高めるための一般的な方法であり、これらのプログラムでは、売り手から繰り返し購入する顧客はポイントを蓄積し、最終的に無料報酬を償還する。
これらのプログラムは、その実施における不公平な慣行の告発により、最近精査されている。
これらの懸念に乗じて、ポイントベースの報酬プログラムを公平に設計する問題について検討し、その効果に矛盾する2つの障害に着目した。
第一に、顧客の不均一性のため、売り手は高い収益を生み出すために異なる顧客に対して異なる償還基準を設定する必要がある。
第2に、顧客の行動と累積ポイント数との関係は、通常不明である。
まず、すべての顧客に対して同じ償還基準を使用する個別の公正報酬プログラムは、顧客を区別する最適なパーソナライズ戦略と比較して、少なくとも1ドル以上の収益が失われることを示した。
次に、需要不確実性が存在する場合に、時間的に公正な学習アルゴリズムを設計する問題に取り組む。
この目的を達成するために,実験による点評価のリスクを制限する学習アルゴリズムを設計し,長さの水平線上でO(\log T)$倍の償却しきい値を変更するだけでよいことを示す。
このアルゴリズムは、最適(多対数因子まで)$\widetilde{O}(\sqrt{T})$ regret in expectationを達成する。
そして、このアルゴリズムを修正して、償還しきい値だけを減らし、後悔の要素だけを犠牲にして公平性を向上する。
大規模な数値実験により,提案アルゴリズムの実用性の向上に加えて,平均ケース設定におけるパーソナライゼーションの限界が示された。
関連論文リスト
- Learning Recommender Systems with Soft Target: A Decoupled Perspective [49.83787742587449]
そこで本研究では,ソフトラベルを活用することで,目的を2つの側面として捉えるために,分離されたソフトラベル最適化フレームワークを提案する。
本稿では,ラベル伝搬アルゴリズムをモデル化したソフトラベル生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-09T04:20:15Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Provably Efficient Interactive-Grounded Learning with Personalized Reward [44.64476717773815]
インタラクティブ・グラウンドド・ラーニング(Interactive-Grounded Learning, IGL)は、学習者が観測不能な報酬を最大化することを目的とした強力なフレームワークである。
我々は、実現可能性の下でサブ線形後悔を伴う最初の証明可能な効率のよいアルゴリズムを提供する。
本稿では,探索-テーマ-露光に基づく2つのアルゴリズムと,逆ギャップ重み付けに基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:21:09Z) - STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Reward Teaching for Federated Multi-armed Bandits [18.341280891539746]
「この作品は、常に個人の累積報酬を最大化する顧客に焦点を当てており、報酬指導という新しい考え方を取り入れている。」
teaching-After-Learning (TAL) と呼ばれる段階的なアプローチは、まずクライアントの探索を個別に奨励し、妨げるように設計されている。
厳密な分析は、UTB1でクライアントと向き合う場合、TWLは、サブ最適ギャップへの依存という点でTALを上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-03T22:01:10Z) - Network Revenue Management with Demand Learning and Fair
Resource-Consumption Balancing [16.37657820732206]
本稿では,需要学習と公平な資源消費バランスの両面から,価格に基づくネットワーク収益管理(NRM)問題について検討する。
正規化収益を最大化するために,UCB (Upper-Confidence-Bound) 要求学習手法を用いた原始二重型オンラインポリシーを提案する。
我々のアルゴリズムは、$widetilde O(N5/2sqrtT)$の最悪の後悔を達成し、$N$は製品数を表し、$T$は期間数を表す。
論文 参考訳(メタデータ) (2022-07-22T15:55:49Z) - Achieving Counterfactual Fairness for Causal Bandit [18.077963117600785]
期待される報酬を最大化するために、各ステップでアイテムを推薦する方法を研究します。
次に, 対実的個人的公正性を達成するためのフェア因果バンドイット(F-UCB)を提案する。
論文 参考訳(メタデータ) (2021-09-21T23:44:48Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。