論文の概要: Overcoming Temptation: Incentive Design For Intertemporal Choice
- arxiv url: http://arxiv.org/abs/2203.05782v2
- Date: Mon, 14 Mar 2022 04:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 11:25:50.008947
- Title: Overcoming Temptation: Incentive Design For Intertemporal Choice
- Title(参考訳): 誘惑を克服する: 時間的選択のためのインセンティブデザイン
- Authors: Shruthi Sukumar, Adrian F. Ward, Camden Elliott-Williams, Shabnam
Hakimi, Michael C. Mozer
- Abstract要約: 我々は,待ち行列を選択して,前へ進む一連のアクションを実行することで,プレイヤーが得点するオンライン遅延格子ゲームを開発する。
カスタマイズされたインセンティブ構造が個人の目標指向の意思決定を改善することを実証する。
- 参考スコア(独自算出の注目度): 7.614718013162995
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Individuals are often faced with temptations that can lead them astray from
long-term goals. We're interested in developing interventions that steer
individuals toward making good initial decisions and then maintaining those
decisions over time. In the realm of financial decision making, a particularly
successful approach is the prize-linked savings account: individuals are
incentivized to make deposits by tying deposits to a periodic lottery that
awards bonuses to the savers. Although these lotteries have been very effective
in motivating savers across the globe, they are a one-size-fits-all solution.
We investigate whether customized bonuses can be more effective. We formalize a
delayed-gratification task as a Markov decision problem and characterize
individuals as rational agents subject to temporal discounting, a cost
associated with effort, and fluctuations in willpower. Our theory is able to
explain key behavioral findings in intertemporal choice. We created an online
delayed-gratification game in which the player scores points by selecting a
queue to wait in and then performing a series of actions to advance to the
front. Data collected from the game is fit to the model, and the instantiated
model is then used to optimize predicted player performance over a space of
incentives. We demonstrate that customized incentive structures can improve an
individual's goal-directed decision making.
- Abstract(参考訳): 個人はしばしば、長期的目標から順応する誘惑に直面している。
私たちは、個人が適切な初期決定を行い、その決定を時間とともに維持するための介入を開発することに興味を持っています。
金融決定の領域では、特に成功したアプローチは、貯金口座であり、個人は貯金者にボーナスを与える定期的な宝くじに預金を結び付けることで預金を行うインセンティブを得ている。
これらの宝くじは、世界中のセーバーを動機付けるのに非常に効果的だが、一大のソリューションである。
ボーナスのカスタマイズがより効果的かどうか検討する。
我々は,遅延グレイトフィケーションタスクをマルコフ決定問題として定式化し,個人を時間的ディスカウント,努力に伴うコスト,意志力の変動に係わる合理的エージェントとして特徴づける。
我々の理論は、時間的選択において重要な行動的発見を説明できる。
我々はオンラインの遅延格子ゲームを作成し、プレイヤーは待ち行列を選択し、前へ進む一連のアクションを実行することでポイントを得点する。
ゲームから収集されたデータはモデルに適合し、インスタンス化されたモデルは、インセンティブの空間で予測されたプレイヤーのパフォーマンスを最適化するために使用される。
カスタマイズされたインセンティブ構造が個人の目標指向意思決定を改善することを実証する。
関連論文リスト
- Learning under Imitative Strategic Behavior with Unforeseeable Outcomes [14.80947863438795]
個人と意思決定者間の相互作用をモデル化するStackelbergゲームを提案する。
両者の目的的差異を3つの解釈可能な項に分解できることを示す。
論文 参考訳(メタデータ) (2024-05-03T00:53:58Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Probe: Learning Users' Personalized Projection Bias in Intertemporal
Choices [5.874142059884521]
本研究では、投射バイアスと基準点効果の2つのよく観察されるバイアスに焦点を当てる。
これらのバイアスに対処するために, Probe と呼ばれる新しいバイアス埋め込み選好モデルを提案する。
Probeには、ユーザの予測バイアスをキャプチャする重み関数と、参照ポイント効果を考慮に入れた値関数が組み込まれている。
論文 参考訳(メタデータ) (2023-03-09T12:13:46Z) - Neural Payoff Machines: Predicting Fair and Stable Payoff Allocations
Among Team Members [13.643650155415484]
ニューラルネットワークをトレーニングすることで,協調的なゲーム理論解を学習モデルに蒸留する方法を示す。
我々の手法はトレーニング分布から遠く離れたゲームに一般化できるモデルを作成する。
私たちのフレームワークの重要な応用は、説明可能なAIです。
論文 参考訳(メタデータ) (2022-08-18T12:33:09Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Personalized Promotion Decision Making Based on Direct and Enduring
Effect Predictions [5.50110172922112]
本稿では,顧客ごとの直接的かつ永続的な対応をモデル化し,複数治療促進意思決定の枠組みを提案する。
まず、顧客直接持続効果(CDEE)モデルを提案し、顧客直接持続応答を予測する。
CDEEの助けを借りて、コストを予算に抑えつつ、持続的な効果を最適化するためにインセンティブアロケーションをパーソナライズする。
論文 参考訳(メタデータ) (2022-07-23T07:13:57Z) - Inferring Lexicographically-Ordered Rewards from Preferences [82.42854687952115]
本稿では,エージェントの観察された嗜好の多目的報酬に基づく表現を推定する手法を提案する。
我々は,異なる目的に対するエージェントの優先順位を語彙的入力としてモデル化することにより,エージェントがより高い優先順位を持つ目的に対して無関心である場合に限って,より低い優先順位を持つ目的が重要となるようにした。
論文 参考訳(メタデータ) (2022-02-21T12:01:41Z) - Right Decisions from Wrong Predictions: A Mechanism Design Alternative
to Individual Calibration [107.15813002403905]
意思決定者は、しばしば不完全な確率予測に頼る必要がある。
本稿では,予測ユーティリティが実際に取得したユーティリティと一致することを保証する補償機構を提案する。
本研究では、乗客が飛行遅延確率に基づいて、個々の旅行計画をどのように確実に最適化できるかを示すアプリケーションを示す。
論文 参考訳(メタデータ) (2020-11-15T08:22:39Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Incentivizing Exploration with Selective Data Disclosure [70.11902902106014]
効率的な探索を促すレコメンデーションシステムを提案し設計する。
エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。
フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
論文 参考訳(メタデータ) (2018-11-14T19:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。