Fugu-MT 論文翻訳(概要): Adaptive Experimental Design for Policy Learning

論文の概要: Adaptive Experimental Design for Policy Learning

arxiv url: http://arxiv.org/abs/2401.03756v3
Date: Thu, 8 Feb 2024 17:41:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 18:49:06.855056
Title: Adaptive Experimental Design for Policy Learning
Title（参考訳）: 政策学習のための適応型実験設計
Authors: Masahiro Kato and Kyohei Okumura and Takuya Ishihara and Toru Kitagawa
Abstract要約: 複数の治療アームを用いたポリシー学習のための最適適応型実験設計について検討する。サンプリング段階では、プランナーは、順次到着した実験ユニットに対して、処理アームを適応的に割り当てる。実験の後、プランナーは個体群に対する個別の割り当て規則を推奨する。
参考スコア（独自算出の注目度）: 9.54473759331265
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evidence-based targeting has been a topic of growing interest among the practitioners of policy and business. Formulating decision-maker's policy learning as a fixed-budget best arm identification (BAI) problem with contextual information, we study an optimal adaptive experimental design for policy learning with multiple treatment arms. In the sampling stage, the planner assigns treatment arms adaptively over sequentially arriving experimental units upon observing their contextual information (covariates). After the experiment, the planner recommends an individualized assignment rule to the population. Setting the worst-case expected regret as the performance criterion of adaptive sampling and recommended policies, we derive its asymptotic lower bounds, and propose a strategy, Adaptive Sampling-Policy Learning strategy (PLAS), whose leading factor of the regret upper bound aligns with the lower bound as the size of experimental units increases.
Abstract（参考訳）: 証拠に基づくターゲティングは、政策やビジネスの実践者の間で関心が高まっている。コンテクスト情報を用いた固定予算ベストアーム識別(BAI)問題としての意思決定者の政策学習を定式化し,複数の治療アームを用いた政策学習のための最適適応実験設計について検討した。サンプリング段階では、プランナーは、コンテキスト情報(共変量)を観察して順次到着する実験ユニットに対して、処理アームを適応的に割り当てる。実験の後、プランナーは個体群に対する個別の割り当て規則を推奨する。適応的なサンプリングと推奨されたポリシーのパフォーマンス基準として最悪の場合の後悔をセットし、漸近的な下限を導出し、後悔の上限の主要因が実験単位の大きさの増加とともに下限に一致する戦略である適応的サンプリング・ポリシー学習戦略(plas)を提案する。

関連論文リスト

Adaptive Experiments Under High-Dimensional and Data Sparse Settings: Applications for Educational Platforms [10.565276803897325]
トンプソンサンプリングのような従来の適応型ポリシは、高次元およびスパースな設定でのスケーラビリティに苦労する。そこで,本研究では,サンプルサイズを実測可能な処理数を決定するためのフレームワークを提案する。各種試料サイズおよび処理条件におけるWAPTSの比較評価を行った。
論文参考訳（メタデータ） (2025-01-07T18:55:02Z)
Optimal Adaptive Experimental Design for Estimating Treatment Effect [14.088972921434761]
本稿では,治療効果を推定する際の最適精度を決定するための基本的な問題に対処する。二重ロバストな手法の概念を逐次実験設計に取り入れることで、最適推定問題をオンラインバンディット学習問題としてモデル化する。本稿では,バンディットアルゴリズム設計と適応統計的推定の両方のツールとアイデアを用いて,一般的な低スイッチング適応実験フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-07T23:22:51Z)
Are causal effect estimations enough for optimal recommendations under multitreatment scenarios? [2.4578723416255754]
異なる治療やコントロール下での潜在的な結果を比較するために、因果効果推定分析を含めることが不可欠である。マルチトリートメント選択のための包括的方法論を提案する。
論文参考訳（メタデータ） (2024-10-07T16:37:35Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-02-09T03:01:13Z)
Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。本稿では,関数近似に適合する2つの実験計画戦略を提案する。そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文参考訳（メタデータ） (2024-01-10T14:40:23Z)
Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文参考訳（メタデータ） (2023-12-05T02:38:04Z)
Choosing a Proxy Metric from Past Experiments [54.338884612982405]
多くのランダム化実験では、長期的な計量の処理効果は測定が困難または不可能であることが多い。一般的な方法は、いくつかの短期的プロキシメトリクスを計測して、長期的メトリックを綿密に追跡することである。ランダム化実験の同種集団において最適なプロキシメトリックを定義し構築するための新しい統計フレームワークを導入する。
論文参考訳（メタデータ） (2023-09-14T17:43:02Z)
Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文参考訳（メタデータ） (2023-08-29T18:18:21Z)
Asymptotically Optimal Fixed-Budget Best Arm Identification with Variance-Dependent Bounds [10.915684166086026]
単純後悔を最小化するための固定予算ベストアーム識別(BAI)の問題点について検討する。この決定は,最善腕と推奨腕の期待結果との違いである,期待された単純後悔に基づいて評価する。我々は,HIR推定器(ヒラノら,2003年)を用いて最適な腕を推奨する2段階(TS-Hirano-Imbens-Ridder-HIR)戦略を提案する。
論文参考訳（メタデータ） (2023-02-06T18:27:11Z)
Improved Policy Evaluation for Randomized Trials of Algorithmic Resource Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文参考訳（メタデータ） (2023-02-06T05:17:22Z)
Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文参考訳（メタデータ） (2022-12-19T22:43:08Z)
Contextual Bandits in a Survey Experiment on Charitable Giving: Within-Experiment Outcomes versus Policy Learning [21.9468085255912]
我々は,対象とする治療課題ポリシーを学習するための適応的な実験(文脈的帯域幅')を設計し,実装する。目的は、参加者のアンケート回答を使用して、寄付募集においてどの慈善団体に公開するかを決定することである。パイロットデータを収集し, シミュレーション実験を行うことにより, 代替実験設計の評価を行った。
論文参考訳（メタデータ） (2022-11-22T04:44:17Z)
Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。 VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文参考訳（メタデータ） (2021-10-17T19:28:45Z)
Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。 3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文参考訳（メタデータ） (2021-01-19T18:55:29Z)
Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文参考訳（メタデータ） (2020-12-30T03:22:35Z)
Treatment recommendation with distributional targets [0.0]
実験に基づいて最善を尽くさなければならない意思決定者の課題を考察する。治療勧告から得られる結果分布の所望性を機能分布特性を用いて測定する。我々は2つの(近く)最適後悔政策を提案する。
論文参考訳（メタデータ） (2020-05-19T19:27:21Z)
Progressive Multi-Stage Learning for Discriminative Tracking [25.94944743206374]
本稿では,頑健な視覚追跡のためのサンプル選択の段階的多段階最適化ポリシを用いた共同識別学習手法を提案する。提案手法は, 時間重み付き, 検出誘導型セルフペースト学習戦略により, 簡単なサンプル選択を行う。ベンチマークデータセットの実験では、提案した学習フレームワークの有効性が示されている。
論文参考訳（メタデータ） (2020-04-01T07:01:30Z)
Generalization Bounds and Representation Learning for Estimation of Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文参考訳（メタデータ） (2020-01-21T10:16:33Z)
Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。実演なしで指導的学習を通じて効果的な政策を学べるか? 政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文参考訳（メタデータ） (2019-12-31T18:07:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。