論文の概要: Demistifying Inference after Adaptive Experiments
- arxiv url: http://arxiv.org/abs/2405.01281v1
- Date: Thu, 2 May 2024 13:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 16:24:55.133566
- Title: Demistifying Inference after Adaptive Experiments
- Title(参考訳): 適応実験による推論の最小化
- Authors: Aurélien Bibaut, Nathan Kallus,
- Abstract要約: マルチアームバンディットのような適応的な実験は、治療-割り当てポリシーに適応し、または、これまで観察されたデータに実験を停止する決定を下す。
適応的な実験アルゴリズムを一般的に満たさない濃度不等式と結合境界は、過度に保守的な推論をもたらす。
本稿では、なぜ、どのように、どのように、いつ適応性が推論の問題であるのか、そして、それがいつ、その修正方法を理解するのかを説明します。
- 参考スコア(独自算出の注目度): 43.653628046172656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive experiments such as multi-arm bandits adapt the treatment-allocation policy and/or the decision to stop the experiment to the data observed so far. This has the potential to improve outcomes for study participants within the experiment, to improve the chance of identifying best treatments after the experiment, and to avoid wasting data. Seen as an experiment (rather than just a continually optimizing system) it is still desirable to draw statistical inferences with frequentist guarantees. The concentration inequalities and union bounds that generally underlie adaptive experimentation algorithms can yield overly conservative inferences, but at the same time the asymptotic normality we would usually appeal to in non-adaptive settings can be imperiled by adaptivity. In this article we aim to explain why, how, and when adaptivity is in fact an issue for inference and, when it is, understand the various ways to fix it: reweighting to stabilize variances and recover asymptotic normality, always-valid inference based on joint normality of an asymptotic limiting sequence, and characterizing and inverting the non-normal distributions induced by adaptivity.
- Abstract(参考訳): マルチアームバンディットのような適応的な実験は、治療-割り当てポリシーに適応し、または、これまで観察されたデータに実験を停止する決定を下す。
これは、実験の参加者の成果を改善し、実験後の最良の治療法を特定する可能性を改善し、データを無駄にしないようにする可能性がある。
実験として見れば(常に最適化されるシステムではなく)、頻繁な保証を伴う統計的推論を描くことが望ましい。
適応的実験アルゴリズムを一般的に不足させる濃度不等式と結合境界は、過度に保守的な推論をもたらすことができるが、同時に、適応的でない環境では、漸近的正規性は通常適応性によって損なわれる。
本稿では,適応性が実際に推論の問題であり,それを解決するための様々な方法を理解することを目的としている。分散を安定化し,漸近的正規性を取り戻すための重み付け,漸近的制限配列の結合正規性に基づく常に有意な推論,適応性によって引き起こされる非正規分布の特性と反転である。
関連論文リスト
- Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Optimal Ridge Regularization for Out-of-Distribution Prediction [6.278498348219108]
分配予測のための最適尾根正則化と最適尾根リスクの挙動について検討した。
最適正則化レベルの符号を決定する一般的な条件を確立する。
論文 参考訳(メタデータ) (2024-04-01T16:51:19Z) - Semiparametric Efficient Inference in Adaptive Experiments [29.43493007296859]
本研究では, 治療や管理に対する課題の割り当てを規定する政策が, 時間とともに変化しうる連続的な実験において, 平均治療効果の効率的な推定の問題点を考察する。
まず、Adaptive Augmented Inverse-Probability Weighted estimator に対する中心極限定理について述べる。
次に、従来の手法よりもかなり厳密な確率性および漸近的信頼シーケンスの両方を導出した逐次推論設定を検討する。
論文 参考訳(メタデータ) (2023-11-30T06:25:06Z) - Optimal Conditional Inference in Adaptive Experiments [1.8130068086063336]
実験の最後のバッチまでの情報を用いて,これらすべてを適応的に選択できる実効停止時間,代入確率,目標パラメータに関する条件推論の問題を考える。
実験のさらなる制限を欠いて、最終バッチの結果のみを用いた推論が最適であることを示す。
論文 参考訳(メタデータ) (2023-09-21T15:17:38Z) - DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。
まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。
第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文 参考訳(メタデータ) (2023-01-30T15:54:00Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Counterfactual Inference of the Mean Outcome under a Convergence of
Average Logging Probability [5.596752018167751]
本稿では,適応実験で得られたサンプルから,アクションの平均結果を推定する。
適応実験では、過去の観測に基づいて行動を選択する確率を逐次更新することができる。
論文 参考訳(メタデータ) (2021-02-17T19:05:53Z) - Conformal Inference of Counterfactuals and Individual Treatment Effects [6.810856082577402]
そこで本研究では,反ファクトや個々の治療効果について,信頼できる間隔を推定できる共形推論に基づく手法を提案する。
既存の手法は、単純なモデルであってもかなりのカバレッジの欠陥に悩まされる。
論文 参考訳(メタデータ) (2020-06-11T01:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。