論文の概要: Contextual Fixed-Budget Best Arm Identification: Adaptive Experimental
Design with Policy Learning
- arxiv url: http://arxiv.org/abs/2401.03756v1
- Date: Mon, 8 Jan 2024 09:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 17:12:27.052149
- Title: Contextual Fixed-Budget Best Arm Identification: Adaptive Experimental
Design with Policy Learning
- Title(参考訳): コンテキスト固定型ベストアーム識別:政策学習による適応的実験設計
- Authors: Masahiro Kato and Kyohei Okumura and Takuya Ishihara and Toru Kitagawa
- Abstract要約: 本研究では,複数の治療アームを装着した適応実験について考察する。
実験の終わりに、意思決定者は、期待された結果をもたらすと見積もられた治療アームを、状況に応じて推奨する。
以上の結果から,AS-PL戦略が最適であることが示唆された。
- 参考スコア(独自算出の注目度): 9.54473759331265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Individualized treatment recommendation is a crucial task in evidence-based
decision-making. In this study, we formulate this task as a fixed-budget best
arm identification (BAI) problem with contextual information. In this setting,
we consider an adaptive experiment given multiple treatment arms. At each
round, a decision-maker observes a context (covariate) that characterizes an
experimental unit and assigns the unit to one of the treatment arms. At the end
of the experiment, the decision-maker recommends a treatment arm estimated to
yield the highest expected outcome conditioned on a context (best treatment
arm). The effectiveness of this decision is measured in terms of the worst-case
expected simple regret (policy regret), which represents the largest difference
between the conditional expected outcomes of the best and recommended treatment
arms given a context. Our initial step is to derive asymptotic lower bounds for
the worst-case expected simple regret, which also implies ideal treatment
assignment rules. Following the lower bounds, we propose the Adaptive Sampling
(AS)-Policy Learning recommendation (PL) strategy. Under this strategy, we
randomly assign a treatment arm with a ratio of a target assignment ratio at
each round. At the end of the experiment, we train a policy, a function that
recommends a treatment arm given a context, by maximizing the counterfactual
empirical policy value. Our results show that the AS-PL strategy is
asymptotically minimax optimal, with its leading factor of expected simple
regret converging with our established worst-case lower bound. This research
has broad implications in various domains, and in light of existing literature,
our method can be perceived as an adaptive experimental design tailored for
policy learning, on-policy learning, or adaptive welfare maximization.
- Abstract(参考訳): 個別治療勧告は証拠に基づく意思決定において重要な課題である。
本研究では,このタスクをコンテキスト情報を用いた固定予算ベストアーム識別(BAI)問題として定式化する。
この設定では、複数の治療アームを付与した適応実験を考える。
各ラウンドにおいて、意思決定者は、実験ユニットを特徴付けるコンテキスト(共変量)を観察し、そのユニットを治療アームの1つに割り当てる。
実験の終わりに、意思決定者は、コンテキスト(ベスト治療アーム)で条件付けられた最も期待された結果をもたらすと推定される治療アームを推奨する。
この決定の有効性は、最悪の場合の単純な後悔(政治の後悔)の観点で測定され、与えられた文脈において、最善の条件付き期待結果と推奨治療アームの最大差を表す。
私たちの最初のステップは、最悪のケースで予想される単純な後悔に対して、漸近的な低い境界を導き出すことです。
下限に従えば,適応サンプリング (adaptive sampling, as)-policy learning recommendation (pl) 戦略を提案する。
この戦略では、各ラウンドにおける目標割り当て比率の比で処理アームをランダムに割り当てる。
実験の最後には、実証的実証的ポリシー値の最大化により、コンテキストを指定した治療アームを推奨するポリシーを訓練する。
その結果,as-pl戦略は漸近的にミニマックス最適であり,既定の最悪ケース下限に収束する単純後悔が期待できる主要因であることがわかった。
本研究は,様々な領域において広範な意味を持ち,既存の文献から見て,政策学習,オンポリシー学習,適応福祉最大化に適した適応型実験デザインと捉えることができる。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Contextual Bandits in a Survey Experiment on Charitable Giving:
Within-Experiment Outcomes versus Policy Learning [21.9468085255912]
我々は,対象とする治療課題ポリシーを学習するための適応的な実験(文脈的帯域幅')を設計し,実装する。
目的は、参加者のアンケート回答を使用して、寄付募集においてどの慈善団体に公開するかを決定することである。
パイロットデータを収集し, シミュレーション実験を行うことにより, 代替実験設計の評価を行った。
論文 参考訳(メタデータ) (2022-11-22T04:44:17Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Progressive Multi-Stage Learning for Discriminative Tracking [25.94944743206374]
本稿では,頑健な視覚追跡のためのサンプル選択の段階的多段階最適化ポリシを用いた共同識別学習手法を提案する。
提案手法は, 時間重み付き, 検出誘導型セルフペースト学習戦略により, 簡単なサンプル選択を行う。
ベンチマークデータセットの実験では、提案した学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2020-04-01T07:01:30Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。