論文の概要: Contextual Bandits in a Survey Experiment on Charitable Giving:
Within-Experiment Outcomes versus Policy Learning
- arxiv url: http://arxiv.org/abs/2211.12004v1
- Date: Tue, 22 Nov 2022 04:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:16:59.454656
- Title: Contextual Bandits in a Survey Experiment on Charitable Giving:
Within-Experiment Outcomes versus Policy Learning
- Title(参考訳): 有給ギビングに関する調査実験における文脈帯域:実験内成果と政策学習
- Authors: Susan Athey, Undral Byambadalai, Vitor Hadad, Sanath Kumar
Krishnamurthy, Weiwen Leung, Joseph Jay Williams
- Abstract要約: 我々は,対象とする治療課題ポリシーを学習するための適応的な実験(文脈的帯域幅')を設計し,実装する。
目的は、参加者のアンケート回答を使用して、寄付募集においてどの慈善団体に公開するかを決定することである。
パイロットデータを収集し, シミュレーション実験を行うことにより, 代替実験設計の評価を行った。
- 参考スコア(独自算出の注目度): 21.9468085255912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We design and implement an adaptive experiment (a ``contextual bandit'') to
learn a targeted treatment assignment policy, where the goal is to use a
participant's survey responses to determine which charity to expose them to in
a donation solicitation. The design balances two competing objectives:
optimizing the outcomes for the subjects in the experiment (``cumulative regret
minimization'') and gathering data that will be most useful for policy
learning, that is, for learning an assignment rule that will maximize welfare
if used after the experiment (``simple regret minimization''). We evaluate
alternative experimental designs by collecting pilot data and then conducting a
simulation study. Next, we implement our selected algorithm. Finally, we
perform a second simulation study anchored to the collected data that evaluates
the benefits of the algorithm we chose. Our first result is that the value of a
learned policy in this setting is higher when data is collected via a uniform
randomization rather than collected adaptively using standard cumulative regret
minimization or policy learning algorithms. We propose a simple heuristic for
adaptive experimentation that improves upon uniform randomization from the
perspective of policy learning at the expense of increasing cumulative regret
relative to alternative bandit algorithms. The heuristic modifies an existing
contextual bandit algorithm by (i) imposing a lower bound on assignment
probabilities that decay slowly so that no arm is discarded too quickly, and
(ii) after adaptively collecting data, restricting policy learning to select
from arms where sufficient data has been gathered.
- Abstract(参考訳): 本研究では,対象とする治療方針を学習するための適応的な実験(‘contextual bandit’’)を設計し,実施する。
この設計は、2つの競合する目標のバランスをとる: 実験中の被験者の成果を最適化すること(`cumulative regret minimization')と、政策学習、すなわち実験後に使用した場合の福祉を最大化する割り当て規則(`simple regret minimization'')を学ぶために最も有用なデータを集めることである。
パイロットデータを収集し, シミュレーション実験を行い, 代替実験設計の評価を行った。
次に,選択したアルゴリズムを実装する。
最後に、収集したデータに固定された第2のシミュレーション研究を行い、アルゴリズムの利点を評価する。
この設定における学習ポリシーの値は、標準の累積後悔最小化やポリシー学習アルゴリズムを用いて適応的に収集するよりも、一様ランダム化によってデータを収集する場合の方が高い。
そこで本研究では,政策学習の観点から一様ランダム化による適応的実験に対する単純なヒューリスティックを提案し,代替バンディットアルゴリズムに対する累積後悔の増加を犠牲にして改善する。
ヒューリスティックは既存の文脈的バンディットアルゴリズムを修飾する
(i)腕を速すぎないようにゆっくりと崩壊する割当確率に下限を課すこと、
(ii)データを適応的に収集した後、十分なデータが収集された腕から選択するポリシー学習を制限する。
関連論文リスト
- Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Adaptive Experimental Design for Policy Learning [9.54473759331265]
複数の治療アームを用いたポリシー学習のための最適適応型実験設計について検討する。
サンプリング段階では、プランナーは、順次到着した実験ユニットに対して、処理アームを適応的に割り当てる。
実験の後、プランナーは個体群に対する個別の割り当て規則を推奨する。
論文 参考訳(メタデータ) (2024-01-08T09:29:07Z) - SPEED: Experimental Design for Policy Evaluation in Linear
Heteroscedastic Bandits [13.02672341061555]
線形帯域における政策評価のための最適データ収集の問題について検討する。
まず,重み付き最小二乗推定値に対して,重み付き線形帯域設定で最適設計を定式化する。
次に、この定式化を使用して、データ収集中にアクション毎のサンプルの最適な割り当てを導出します。
論文 参考訳(メタデータ) (2023-01-29T04:33:13Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Policy Learning with Adaptively Collected Data [22.839095992238537]
適応的に収集されたデータで最適な政策を学ぶという課題に対処します。
一般化された逆確率重み付き推定器に基づくアルゴリズムを提案する。
合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2021-05-05T22:03:10Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。