論文の概要: AExGym: Benchmarks and Environments for Adaptive Experimentation
- arxiv url: http://arxiv.org/abs/2408.04531v1
- Date: Thu, 8 Aug 2024 15:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:18:18.448902
- Title: AExGym: Benchmarks and Environments for Adaptive Experimentation
- Title(参考訳): AExGym: 適応実験のためのベンチマークと環境
- Authors: Jimmy Wang, Ethan Che, Daniel R. Jiang, Hongseok Namkoong,
- Abstract要約: 実世界のデータセットに基づく適応実験のためのベンチマークを提案する。
非定常性、バッチ/遅延フィードバック、複数の成果と目標、外部の妥当性。
- 参考スコア(独自算出の注目度): 7.948144726705323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Innovations across science and industry are evaluated using randomized trials (a.k.a. A/B tests). While simple and robust, such static designs are inefficient or infeasible for testing many hypotheses. Adaptive designs can greatly improve statistical power in theory, but they have seen limited adoption due to their fragility in practice. We present a benchmark for adaptive experimentation based on real-world datasets, highlighting prominent practical challenges to operationalizing adaptivity: non-stationarity, batched/delayed feedback, multiple outcomes and objectives, and external validity. Our benchmark aims to spur methodological development that puts practical performance (e.g., robustness) as a central concern, rather than mathematical guarantees on contrived instances. We release an open source library, AExGym, which is designed with modularity and extensibility in mind to allow experimentation practitioners to develop custom environments and algorithms.
- Abstract(参考訳): 科学と産業のイノベーションはランダム化試験(A/Bテスト)によって評価される。
単純で堅牢な設計であるが、そのような静的な設計は多くの仮説をテストするのに非効率または非効率である。
適応設計は理論上の統計的パワーを大幅に向上させることができるが、実際には脆弱性のために採用が限られている。
本稿では,非定常性,バッチ/遅延フィードバック,複数の結果と目的,外部妥当性など,適応性を運用する上での顕著な実践的課題を取り上げ,実世界のデータセットに基づく適応実験のベンチマークを示す。
本ベンチマークは,提案手法を応用した手法開発を推し進めることを目的としている。
我々はオープンソースのライブラリであるAExGymをリリースし、モジュラリティと拡張性を念頭に設計し、実験実践者がカスタム環境やアルゴリズムを開発できるようにする。
関連論文リスト
- Optimization-Driven Adaptive Experimentation [7.948144726705323]
実世界の実験には、バッチで遅延したフィードバック、非定常性、複数の目的と制約、そして(時には)パーソナライゼーションが含まれる。
これらの課題にプロブレム単位で対処するための適応的手法の調整は不可能であり、静的設計はデファクトスタンダードのままである。
本稿では,多種多様な目的,制約,統計的手順を柔軟に組み込む数学的プログラミングの定式化について述べる。
論文 参考訳(メタデータ) (2024-08-08T16:29:09Z) - Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。
本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。
我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文 参考訳(メタデータ) (2023-12-05T02:38:04Z) - ExPT: Synthetic Pretraining for Few-Shot Experimental Design [33.5918976228562]
実験事前変換器(Experiment Pretrained Transformers、ExPT)は、数発の実験設計の基礎モデルである。
ExPTは、合成事前学習と文脈内学習を組み合わせた新しい組み合わせを採用している。
挑戦領域における数ショットの実験設計におけるExPTの評価を行った。
論文 参考訳(メタデータ) (2023-10-30T19:25:43Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Task-specific experimental design for treatment effect estimation [59.879567967089145]
因果推論の標準は大規模ランダム化試験(RCT)である。
近年の研究では、RCTのよりサンプル効率の良い代替案が提案されているが、これらは因果効果を求める下流の応用には適用できない。
実験的な設計のためのタスク固有のアプローチを開発し、特定の下流アプリケーションにカスタマイズされたサンプリング戦略を導出する。
論文 参考訳(メタデータ) (2023-06-08T18:10:37Z) - Adaptive Experimentation at Scale: A Computational Framework for
Flexible Batches [7.390918770007728]
結果がバッチで測定される少数の実測を含む実例によって動機付けられ,適応駆動型実験フレームワークを開発した。
我々の主な観察は、統計的推論において普遍的な正規近似は適応アルゴリズムの設計を導くことができることである。
論文 参考訳(メタデータ) (2023-03-21T04:17:03Z) - Adaptive Experimental Design and Counterfactual Inference [20.666734673282495]
本稿では, 適応型実験システムを用いた産業環境におけるナレーションの課題と落とし穴について, 教訓を共有した。
我々は,これらの経験に基づいて,対実的推論のための適応型実験設計フレームワークを開発した。
論文 参考訳(メタデータ) (2022-10-25T22:29:16Z) - Design Amortization for Bayesian Optimal Experimental Design [70.13948372218849]
予測情報ゲイン(EIG)のバウンダリに関してパラメータ化された変分モデルを最適化する。
実験者が1つの変分モデルを最適化し、潜在的に無限に多くの設計に対してEIGを推定できる新しいニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-07T02:12:34Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - Parameter-free Online Test-time Adaptation [19.279048049267388]
実世界の様々なシナリオにおいて,テスト時間適応手法が事前学習されたモデルにどのような効果をもたらすかを示す。
我々は特に「保守的」なアプローチを提案し、ラプラシアン適応最大推定(LAME)を用いてこの問題に対処する。
提案手法では,既存の手法よりもシナリオの平均精度がはるかに高く,メモリフットプリントもはるかに高速である。
論文 参考訳(メタデータ) (2022-01-15T00:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。