論文の概要: Adaptive Experimental Design for Policy Learning
- arxiv url: http://arxiv.org/abs/2401.03756v3
- Date: Thu, 8 Feb 2024 17:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 18:49:06.855056
- Title: Adaptive Experimental Design for Policy Learning
- Title(参考訳): 政策学習のための適応型実験設計
- Authors: Masahiro Kato and Kyohei Okumura and Takuya Ishihara and Toru Kitagawa
- Abstract要約: 複数の治療アームを用いたポリシー学習のための最適適応型実験設計について検討する。
サンプリング段階では、プランナーは、順次到着した実験ユニットに対して、処理アームを適応的に割り当てる。
実験の後、プランナーは個体群に対する個別の割り当て規則を推奨する。
- 参考スコア(独自算出の注目度): 9.54473759331265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evidence-based targeting has been a topic of growing interest among the
practitioners of policy and business. Formulating decision-maker's policy
learning as a fixed-budget best arm identification (BAI) problem with
contextual information, we study an optimal adaptive experimental design for
policy learning with multiple treatment arms. In the sampling stage, the
planner assigns treatment arms adaptively over sequentially arriving
experimental units upon observing their contextual information (covariates).
After the experiment, the planner recommends an individualized assignment rule
to the population. Setting the worst-case expected regret as the performance
criterion of adaptive sampling and recommended policies, we derive its
asymptotic lower bounds, and propose a strategy, Adaptive Sampling-Policy
Learning strategy (PLAS), whose leading factor of the regret upper bound aligns
with the lower bound as the size of experimental units increases.
- Abstract(参考訳): 証拠に基づくターゲティングは、政策やビジネスの実践者の間で関心が高まっている。
コンテクスト情報を用いた固定予算ベストアーム識別(BAI)問題としての意思決定者の政策学習を定式化し,複数の治療アームを用いた政策学習のための最適適応実験設計について検討した。
サンプリング段階では、プランナーは、コンテキスト情報(共変量)を観察して順次到着する実験ユニットに対して、処理アームを適応的に割り当てる。
実験の後、プランナーは個体群に対する個別の割り当て規則を推奨する。
適応的なサンプリングと推奨されたポリシーのパフォーマンス基準として最悪の場合の後悔をセットし、漸近的な下限を導出し、後悔の上限の主要因が実験単位の大きさの増加とともに下限に一致する戦略である適応的サンプリング・ポリシー学習戦略(plas)を提案する。
関連論文リスト
- POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Contextual Bandits in a Survey Experiment on Charitable Giving:
Within-Experiment Outcomes versus Policy Learning [21.9468085255912]
我々は,対象とする治療課題ポリシーを学習するための適応的な実験(文脈的帯域幅')を設計し,実装する。
目的は、参加者のアンケート回答を使用して、寄付募集においてどの慈善団体に公開するかを決定することである。
パイロットデータを収集し, シミュレーション実験を行うことにより, 代替実験設計の評価を行った。
論文 参考訳(メタデータ) (2022-11-22T04:44:17Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Variance Reduction Based Experience Replay for Policy Optimization [3.4605290959269075]
Variance Reduction Experience Replay (VRER) は、異なるポリシー最適化アルゴリズムとシームレスに統合できる適応可能な方法である。
VRERは、最適ポリシーの学習において顕著な加速を提供し、最先端(SOTA)ポリシー最適化アプローチのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy
Gradients [93.65993173260318]
報酬を最大化するポリシーを訓練し、そのアクションを通じて特定の機密状態変数の開示を最小化するタスクを考える。
この設定は、シーケンシャルな意思決定のためのプライバシーにおける現実世界の問題をどのようにカバーするかを例に示します。
実験の結果,本手法は敏感な状態を隠蔽する方針が得られた。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Progressive Multi-Stage Learning for Discriminative Tracking [25.94944743206374]
本稿では,頑健な視覚追跡のためのサンプル選択の段階的多段階最適化ポリシを用いた共同識別学習手法を提案する。
提案手法は, 時間重み付き, 検出誘導型セルフペースト学習戦略により, 簡単なサンプル選択を行う。
ベンチマークデータセットの実験では、提案した学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2020-04-01T07:01:30Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。