論文の概要: AutoOffAB: Toward Automated Offline A/B Testing for Data-Driven Requirement Engineering
- arxiv url: http://arxiv.org/abs/2312.10624v2
- Date: Fri, 9 Aug 2024 08:17:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 20:40:55.668492
- Title: AutoOffAB: Toward Automated Offline A/B Testing for Data-Driven Requirement Engineering
- Title(参考訳): AutoOffAB: データ駆動要求エンジニアリングのためのオフラインA/Bテスト自動化を目指す
- Authors: Jie JW Wu,
- Abstract要約: 「オフラインA/Bテスト」が注目され、過去の記録データを推定し、新技術のオフライン評価を行うことを目指している。
本稿では,最新のログに対してオフラインA/Bテストの変種を自動的に実行し,オフライン評価結果を更新するAutoOffABを提案する。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software companies have widely used online A/B testing to evaluate the impact of a new technology by offering it to groups of users and comparing it against the unmodified product. However, running online A/B testing needs not only efforts in design, implementation, and stakeholders' approval to be served in production but also several weeks to collect the data in iterations. To address these issues, a recently emerging topic, called "Offline A/B Testing", is getting increasing attention, intending to conduct the offline evaluation of new technologies by estimating historical logged data. Although this approach is promising due to lower implementation effort, faster turnaround time, and no potential user harm, for it to be effectively prioritized as requirements in practice, several limitations need to be addressed, including its discrepancy with online A/B test results, and lack of systematic updates on varying data and parameters. In response, in this vision paper, I introduce AutoOffAB, an idea to automatically run variants of offline A/B testing against recent logging and update the offline evaluation results, which are used to make decisions on requirements more reliably and systematically.
- Abstract(参考訳): ソフトウェア企業は、オンラインA/Bテストを使用して、新しいテクノロジの影響を評価し、ユーザグループに提供し、修正されていない製品と比較している。
しかし、オンラインA/Bテストを実行するには、設計、実装、ステークホルダーの承認が本番環境で提供されるだけでなく、イテレーションでデータを集めるのに数週間かかる必要がある。
これらの問題に対処するため、最近、"Offline A/B Testing"と呼ばれるトピックが注目され、履歴記録データを推定することで、新しい技術のオフライン評価を行うことを目指している。
このアプローチは、実装の労力の削減、ターンアラウンドタイムの短縮、潜在的なユーザ被害の回避などによって有望だが、実際に要求として効果的に優先順位付けされるためには、オンラインA/Bテスト結果との整合性、さまざまなデータやパラメータの体系的な更新の欠如など、いくつかの制限に対処する必要がある。
このビジョンペーパーでは、最新のロギングに対してオフラインA/Bテストの変種を自動的に実行し、オフライン評価結果を更新するアイデアであるAutoOffABを紹介します。
関連論文リスト
- Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - Constraint-Guided Test Execution Scheduling: An Experience Report at ABB
Robotics [13.50507740574158]
我々は、大規模なテストリポジトリからテスト実行のスケジューリングを自動化することを目標とするDynTestと呼ばれるプロジェクトの結果を示す。
本稿では,ABBロボティクスにおけるテスト実行スケジューリングのための制約ベース最適化モデルの転送に成功した経験と教訓について報告する。
論文 参考訳(メタデータ) (2023-06-02T13:29:32Z) - Automating Pipelines of A/B Tests with Population Split Using
Self-Adaptation and Machine Learning [10.635137352476246]
A/Bテストは、新しい機能の導入や既存のソフトウェアの変更を通じてイノベーションを促進するために、業界でよく使われるアプローチである。
伝統的に、A/Bテストは順次実施され、各実験は対応するアプリケーションの全人口を対象としている。
これらの問題に対処するために,A/Bテストのパイプライン実行を自動化するAutoPABSという,新たな自己適応型アプローチを導入する。
論文 参考訳(メタデータ) (2023-06-02T09:54:59Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - Design-Bench: Benchmarks for Data-Driven Offline Model-Based
Optimization [82.02008764719896]
ブラックボックスモデルに基づく最適化問題は、タンパク質、DNA配列、航空機、ロボットの設計など、幅広い領域で広く使われている。
本稿では,統合評価プロトコルと最近の手法の参照実装を備えたオフラインMBOのためのベンチマークであるDesign-Benchを提案する。
私たちのベンチマークには、生物学、材料科学、ロボット工学における現実世界の最適化問題から派生した、多種多様な現実的なタスクが含まれています。
論文 参考訳(メタデータ) (2022-02-17T05:33:27Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - On Introducing Automatic Test Case Generation in Practice: A Success
Story and Lessons Learned [7.717446055777458]
本稿では,中規模企業におけるシステムテストスイートの自動生成技術の導入経験について報告する。
自動テストケース生成を導入する際に直面する技術的および組織的障害について説明する。
弊社が開発したテストケースジェネレータ ABT2.0 を紹介します。
論文 参考訳(メタデータ) (2021-02-28T11:31:50Z) - Rethinking Online Action Detection in Untrimmed Videos: A Novel Online
Evaluation Protocol [9.3576825415122]
オンラインアクション検出(OAD)問題を再検討する必要がある。
従来のオフラインアクション検出アプローチとは異なり、OAD設定では、非常に少ない作業と、使用する評価プロトコルに関するコンセンサスがないことが分かりました。
本稿では,OADのシナリオを再考し,問題そのものと,オンラインとみなすモデルが従わなければならない主な特徴を明確に定義する。
論文 参考訳(メタデータ) (2020-03-26T17:13:55Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。