論文の概要: Incentivizing Compliance with Algorithmic Instruments
- arxiv url: http://arxiv.org/abs/2107.10093v1
- Date: Wed, 21 Jul 2021 14:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:03:06.978657
- Title: Incentivizing Compliance with Algorithmic Instruments
- Title(参考訳): アルゴリズム機器によるコンプライアンスのインセンティブ化
- Authors: Daniel Ngo, Logan Stapleton, Vasilis Syrgkanis, Zhiwei Steven Wu
- Abstract要約: 本稿では,時間とともに変化する動的行動としてコンプライアンスを研究するゲーム理論モデルを提案する。
本研究では,エージェントの行動選択にのみ影響する機器変数(IV)の形式として,プランナーの推薦を反映する新しい推薦機構を開発する。
- 参考スコア(独自算出の注目度): 31.11365977878446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Randomized experiments can be susceptible to selection bias due to potential
non-compliance by the participants. While much of the existing work has studied
compliance as a static behavior, we propose a game-theoretic model to study
compliance as dynamic behavior that may change over time. In rounds, a social
planner interacts with a sequence of heterogeneous agents who arrive with their
unobserved private type that determines both their prior preferences across the
actions (e.g., control and treatment) and their baseline rewards without taking
any treatment. The planner provides each agent with a randomized recommendation
that may alter their beliefs and their action selection. We develop a novel
recommendation mechanism that views the planner's recommendation as a form of
instrumental variable (IV) that only affects an agents' action selection, but
not the observed rewards. We construct such IVs by carefully mapping the
history -- the interactions between the planner and the previous agents -- to a
random recommendation. Even though the initial agents may be completely
non-compliant, our mechanism can incentivize compliance over time, thereby
enabling the estimation of the treatment effect of each treatment, and
minimizing the cumulative regret of the planner whose goal is to identify the
optimal treatment.
- Abstract(参考訳): ランダム化実験は、参加者による潜在的非コンプライアンスによる選択バイアスの影響を受けやすい。
既存の研究の多くは静的な振る舞いとしてコンプライアンスを研究してきたが、時間とともに変化する動的な振る舞いとしてコンプライアンスを研究するゲーム理論モデルを提案する。
ラウンドでは、社会的プランナーが不均一なエージェントの連続と相互作用し、未観測のプライベートタイプが、アクション(例えば、制御と治療)とベースラインの報酬の両方を、治療を受けずに決定する。
プランナーは各エージェントに、信念と行動選択を変える可能性のあるランダムな推奨を与える。
提案手法は,エージェントの行動選択にのみ影響するが,観察された報酬には影響しない機器変数(IV)の形式として,プランナーの推薦を反映する。
我々は、プランナーと前のエージェント間のインタラクションである履歴をランダムなレコメンデーションに慎重にマッピングすることで、そのようなIVを構築する。
初期薬品が完全に非適合であるとしても、この機構は経時的にコンプライアンスをインセンティブ化し、各治療の処置効果を推定し、最適な治療の特定を目標とするプランナーの累積的後悔を最小化することができる。
関連論文リスト
- Optimal and Fair Encouragement Policy Evaluation and Learning [11.712023983596914]
本研究では, 因果同定, 統計的分散推定, および最適処理規則のロバスト推定について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
論文 参考訳(メタデータ) (2023-09-12T20:45:30Z) - Operationalizing Counterfactual Metrics: Incentives, Ranking, and
Information Asymmetry [62.53919624802853]
このような平均的な治療結果の指標から生じるインセンティブのずれを分析した。
本稿では,患者が対象とするランキングシステムにおいて,対物メトリクスを合理的に振る舞うように修正する方法を示す。
論文 参考訳(メタデータ) (2023-05-24T00:24:38Z) - Debiasing the Cloze Task in Sequential Recommendation with Bidirectional
Transformers [0.0]
Inverse Propensity Scoring (IPS) は、問題の時間的性質を考慮しないため、逐次的なレコメンデーションに拡張されない。
そこで我々は,Clozeタスクの逐次的推奨を理論的に無視できる新しい確率スコアリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-22T21:44:25Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - An active learning method for solving competitive multi-agent
decision-making and control problems [1.4685355149711299]
対話エージェントの集団によって実行される私的戦略を再構築するための,能動的学習に基づくスキームを提案する。
学習手順を取り入れた外部オブザーバが、プライベートアクション・リアクションマッピングを通じてクエリを作成し、エージェントの反応を観察できるシナリオを想定する。
論文 参考訳(メタデータ) (2022-12-23T19:37:39Z) - TCFimt: Temporal Counterfactual Forecasting from Individual Multiple
Treatment Perspective [50.675845725806724]
個別多面的治療の観点からの時間的対実予測の包括的枠組み(TCFimt)を提案する。
TCFimtは、選択と時間変化バイアスを軽減するためにSeq2seqフレームワークの逆タスクを構築し、比較学習ベースのブロックを設計し、混合処理効果を分離した主治療効果と因果相互作用に分解する。
提案手法は, 特定の治療法による今後の結果予測と, 最先端手法よりも最適な治療タイプとタイミングを選択する上で, 良好な性能を示す。
論文 参考訳(メタデータ) (2022-12-17T15:01:05Z) - Conditional Generation Net for Medication Recommendation [73.09366442098339]
医薬推奨は、患者の診断に従って適切な薬セットを提供することを目標としており、これは診療所において重要な課題である。
医薬品群を生成するための新しいコピー・アンド・予測機構を導入した条件生成ネット(COGNet)を提案する。
提案手法を公開MIMICデータセット上で検証し,実験結果から,提案手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-02-14T10:16:41Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Incentivizing Exploration with Selective Data Disclosure [94.32975679779491]
効率的な探索を促すレコメンデーションシステムを提案し設計する。
エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。
フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
論文 参考訳(メタデータ) (2018-11-14T19:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。