論文の概要: Statistical Inference After Adaptive Sampling in Non-Markovian
Environments
- arxiv url: http://arxiv.org/abs/2202.07098v1
- Date: Mon, 14 Feb 2022 23:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 07:26:31.226884
- Title: Statistical Inference After Adaptive Sampling in Non-Markovian
Environments
- Title(参考訳): 非マルコフ環境における適応サンプリング後の統計的推測
- Authors: Kelly W Zhang, Lucas Janson, Susan A Murphy
- Abstract要約: モバイルヘルスや教育などのデジタルアプリケーションにおける介入をリアルタイムにパーソナライズするために,強化学習(RL)やバンディットアルゴリズムなどの適応的サンプリング手法を利用したい,という大きな願望がある。
このようなアルゴリズムが実際により広く使われるのを防ぐ大きな障害は、結果として収集されたデータが推論された質問に答えられるという保証の欠如である。
このようなデータに対する統計的推測の現在の手法は、環境力学に関する強い仮定を行うため不十分である。
- 参考スコア(独自算出の注目度): 9.468593929311867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a great desire to use adaptive sampling methods, such as
reinforcement learning (RL) and bandit algorithms, for the real-time
personalization of interventions in digital applications like mobile health and
education. A major obstacle preventing more widespread use of such algorithms
in practice is the lack of assurance that the resulting adaptively collected
data can be used to reliably answer inferential questions, including questions
about time-varying causal effects. Current methods for statistical inference on
such data are insufficient because they (a) make strong assumptions regarding
the environment dynamics, e.g., assume a contextual bandit or Markovian
environment, or (b) require data to be collected with one adaptive sampling
algorithm per user, which excludes data collected by algorithms that learn to
select actions by pooling the data of multiple users. In this work, we make
initial progress by introducing the adaptive sandwich estimator to quantify
uncertainty; this estimator (a) is valid even when user rewards and contexts
are non-stationary and highly dependent over time, and (b) accommodates
settings in which an online adaptive sampling algorithm learns using the data
of all users. Furthermore, our inference method is robust to misspecification
of the reward models used by the adaptive sampling algorithm. This work is
motivated by our work designing experiments in which RL algorithms are used to
select actions, yet reliable statistical inference is essential for conducting
primary analyses after the trial is over.
- Abstract(参考訳): モバイルヘルスや教育などのデジタルアプリケーションにおける介入をリアルタイムにパーソナライズするために,強化学習(RL)やバンディットアルゴリズムなどの適応的サンプリング手法を利用したい,という大きな願望がある。
実際にそのようなアルゴリズムがより広範に使用されるのを防ぐ大きな障害は、結果が適応的に収集されたデータが、時間変化による因果効果に関する質問を含む推論上の問題に確実に答えられることを保証することの欠如である。
このようなデータに対する統計的推測法は不十分である
(a)環境力学に関する強い仮定(例えば、文脈的バンディットやマルコフ的環境を仮定するなど)
b) ユーザ毎に1つの適応サンプリングアルゴリズムで収集するデータが必要であり、複数のユーザのデータをプールすることでアクションを選択するアルゴリズムによって収集されたデータを排除する。
本研究では,不確かさを定量化するための適応サンドイッチ推定器を導入することで,初期進行を図る。
(a) ユーザ報酬やコンテキストが時間とともに非定常的であり、非常に依存している場合でも有効である。
(b)オンライン適応サンプリングアルゴリズムが全ユーザのデータを用いて学習する設定に対応する。
さらに,本手法は適応サンプリングアルゴリズムで用いられる報酬モデルの誤特定に対して頑健である。
この研究は、rlアルゴリズムをアクション選択に使用する実験をデザインする作業に動機づけられているが、試行終了後に一次分析を行うには、信頼性の高い統計的推論が不可欠である。
関連論文リスト
- Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。
ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。
ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文 参考訳(メタデータ) (2024-10-15T17:47:44Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - Globally-Optimal Greedy Experiment Selection for Active Sequential
Estimation [1.1530723302736279]
逐次的に収集したデータの実験を適応的に選択するアクティブシーケンシャル推定の問題について検討する。
目標は、より正確なモデル推定のための実験選択ルールを設計することである。
そこで本稿では,グリーディ実験の選択手法のクラスを提案し,最大可能性の統計的解析を行う。
論文 参考訳(メタデータ) (2024-02-13T17:09:29Z) - Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。
本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。
我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文 参考訳(メタデータ) (2023-12-05T02:38:04Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Optimal Sampling Designs for Multi-dimensional Streaming Time Series
with Application to Power Grid Sensor Data [4.891140022708977]
多次元ストリーミング時系列におけるデータ依存型サンプル選択とオンライン推論問題について検討する。
実験設計におけるD-Optimality criterionに着想を得て,オンラインデータ削減手法のクラスを提案する。
最適解はベルヌーイサンプリングとスコアサンプリングを混合した戦略であることを示す。
論文 参考訳(メタデータ) (2023-03-14T21:26:30Z) - Reinforced Approximate Exploratory Data Analysis [7.974685452145769]
まず,対話型データ探索環境におけるサンプリングの影響について検討し,近似誤差を導入する。
本稿では, サンプル選択を最適化し, 分析および洞察フローの持続性を維持するための, 深層強化学習(DRL)に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-12T20:20:22Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Straggler-Resilient Federated Learning: Leveraging the Interplay Between
Statistical Accuracy and System Heterogeneity [57.275753974812666]
フェデレーション学習は、データをローカルに保持しながら、クライアントのネットワークに分散したデータサンプルから学習する。
本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-28T19:21:14Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。