論文の概要: Fair Incentives for Repeated Engagement
- arxiv url: http://arxiv.org/abs/2111.00002v3
- Date: Mon, 29 Jul 2024 22:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 23:24:35.015847
- Title: Fair Incentives for Repeated Engagement
- Title(参考訳): 反復エンゲージメントのための公正なインセンティブ
- Authors: Daniel Freund, Chamsi Hssaine,
- Abstract要約: 我々は、参加決定が受け取ったインセンティブに依存するエージェントに直面する場合、維持のための最適な金融インセンティブスキームを見つけるという課題について検討する。
明示的な差別がなくても、システムの種類構成を変化させることで、ポリシーが無意識に異なるタイプのエージェントを識別できることが示される。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a decision-maker's problem of finding optimal monetary incentive schemes for retention when faced with agents whose participation decisions (stochastically) depend on the incentive they receive. Our focus is on policies constrained to fulfill two fairness properties that preclude outcomes wherein different groups of agents experience different treatment on average. We formulate the problem as a high-dimensional stochastic optimization problem, and study it through the use of a closely related deterministic variant. We show that the optimal static solution to this deterministic variant is asymptotically optimal for the dynamic problem under fairness constraints. Though solving for the optimal static solution gives rise to a non-convex optimization problem, we uncover a structural property that allows us to design a tractable, fast-converging heuristic policy. Traditional schemes for retention ignore fairness constraints; indeed, the goal in these is to use differentiation to incentivize repeated engagement with the system. Our work (i) shows that even in the absence of explicit discrimination, dynamic policies may unintentionally discriminate between agents of different types by varying the type composition of the system, and (ii) presents an asymptotically optimal policy to avoid such discriminatory outcomes.
- Abstract(参考訳): 本研究では、参加決定を(理論的に)受けるインセンティブに依存するエージェントに直面する場合、保持のための最適な金融インセンティブスキームを見つけるという意思決定者の課題について検討する。
我々の焦点は、エージェントの異なるグループが平均的に異なる治療を受ける結果を妨げる2つの公平性の性質を満たすために制約されたポリシーに焦点を当てている。
この問題を高次元確率最適化問題として定式化し、密接に関連する決定論的変種を用いて検討する。
この決定論的不変量に対する最適静的解は、公正性制約の下での動的問題に対して漸近的に最適であることを示す。
最適静的解の解法は非凸最適化の問題を生じさせるが、抽出可能な高速収束ヒューリスティックなポリシーを設計できる構造的特性を明らかにする。
保守のための伝統的なスキームは、公正さの制約を無視している; 実際、これらのゴールは、分化を使用してシステムとの繰り返しの関わりを動機付けることである。
作品
一) 明示的差別がない場合でも、システムの種類構成を変化させることで、動的政策が故意に異なる種類のエージェントを区別することを示し、
(二)このような差別的な結果を避けるため、漸近的に最適な政策を提示する。
関連論文リスト
- Differentiation of Multi-objective Data-driven Decision Pipeline [34.577809430781144]
実世界のシナリオは、しばしば多目的データ駆動最適化問題を含む。
従来の2段階の手法では、機械学習モデルを用いて問題係数を推定し、続いて予測された最適化問題に取り組むためにソルバを呼び出す。
近年の取り組みは、下流最適化問題から導かれる意思決定損失を用いた予測モデルのエンドツーエンドトレーニングに重点を置いている。
論文 参考訳(メタデータ) (2024-06-02T15:42:03Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Learning Fair Policies for Multi-stage Selection Problems from
Observational Data [4.282745020665833]
我々は、観測データから多段階選択問題に対する公正なポリシーを学習する問題を考察する。
この問題は、企業の雇用、ローン承認、または、選択された結果のみが観察されるような保釈決定など、いくつかの高い評価の領域で発生する。
本稿では,人口格差や平等機会など,様々な公平性制約で拡張可能な多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T16:33:15Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Adaptive Decision-Making with Constraints and Dependent Losses:
Performance Guarantees and Applications to Online and Nonlinear
Identification [5.787117733071415]
エージェントが有限の選択肢の中から繰り返し選択することで累積性能目標を最適化する適応的意思決定問題を考える。
我々のアルゴリズムと分析はインスタンス依存であり、つまり、環境の最適以下の選択は、我々の後悔の限界に利用され、反映される。
得られたアルゴリズムの性能は2つの数値例で強調される。
論文 参考訳(メタデータ) (2023-04-06T18:32:26Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - On the Fundamental Trade-offs in Learning Invariant Representations [7.868449549351487]
データとそれに対応するターゲットとセマンティック属性間の統計的依存関係によって引き起こされるユーティリティとセマンティック依存の2つの基本的なトレードオフを特定し、決定する。
本稿では,代表問題に対するトレードオフを数値的に定量化し,ベースライン表現学習アルゴリズムによる解と比較する。
論文 参考訳(メタデータ) (2021-09-08T01:26:46Z) - Algorithmic Challenges in Ensuring Fairness at the Time of Decision [6.228560624452748]
社会的文脈におけるアルゴリズムによる意思決定は、帯域幅フィードバックの下で最適化される。
最近の訴訟は、アルゴリズムによる価格設定の慣行を展開している企業を非難している。
凸最適化の文脈において、遠心自由というよく研究された公正性の概念を導入する。
論文 参考訳(メタデータ) (2021-03-16T19:06:28Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。