論文の概要: Can Offline A/B Testing Be Automated for Data-Driven Requirement
Engineering?
- arxiv url: http://arxiv.org/abs/2312.10624v1
- Date: Sun, 17 Dec 2023 06:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:35:05.712929
- Title: Can Offline A/B Testing Be Automated for Data-Driven Requirement
Engineering?
- Title(参考訳): データ駆動要求エンジニアリングのためにオフラインA/Bテストは自動化できるか?
- Authors: Jie JW Wu
- Abstract要約: オフラインA/Bテストは、履歴ログデータを推定することで、新しい技術のオフライン評価を実行することを目的として、注目を集めている。
本稿では,最新のログに対してオフラインA/Bテストの変種を自動的に実行し,オフライン評価結果を更新するAutoOffABを提案する。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online A/B testing has been widely used by software companies to evaluate the
impact of new technologies by offering it to a groups of users and comparing
against the unmodified product. However, running online A/B testing needs not
only efforts in design, implementation and stakeholders' approval to be served
in production, but also several weeks to collect the data in iterations. To
address these issues, a recent emerging topic, called \textit{offline A/B
testing}, is getting increasing attention, with the goal to conduct offline
evaluation of a new technology by estimating historical logged data. Although
this approach is promising due to lower implementation effort, faster
turnaround time and no potential user harm, for it to be effectively
prioritized as requirements in practice, several limitations need to be
addressed, including its discrepancy with online A/B test results, and lack of
systematic updates on new data. In response, in this vision paper, we introduce
AutoOffAB, an idea to automatically runs variants of offline A/B testing
against recent logging and update the offline evaluation results, which are
used to make decisions on requirements more reliably and systematically.
- Abstract(参考訳): オンラインA/Bテストは、ソフトウェア企業がユーザグループに提供し、修正されていない製品と比較することによって、新しいテクノロジの影響を評価するために広く利用されている。
しかし、オンラインA/Bテストを実行するには、設計、実装、ステークホルダーの承認が本番環境で提供されるだけでなく、イテレーションでデータを収集する数週間もかかる。
これらの問題に対処するため、最近の話題である‘textit{offline A/B testing} が注目されている。
このアプローチは、実装の労力が減り、ターンアラウンド時間が短縮され、潜在的なユーザ被害がないため、現実的な要件として効果的に優先順位付けする必要があるが、オンラインA/Bテスト結果との相違、新しいデータの体系的な更新の欠如など、いくつかの制限に対処する必要がある。
そこで本稿では,近年のログに対するオフラインa/bテストの変種の自動実行と,要件の信頼性と体系的決定に使用されるオフライン評価結果の更新を行うautooffabを提案する。
関連論文リスト
- Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Constraint-Guided Test Execution Scheduling: An Experience Report at ABB
Robotics [13.50507740574158]
我々は、大規模なテストリポジトリからテスト実行のスケジューリングを自動化することを目標とするDynTestと呼ばれるプロジェクトの結果を示す。
本稿では,ABBロボティクスにおけるテスト実行スケジューリングのための制約ベース最適化モデルの転送に成功した経験と教訓について報告する。
論文 参考訳(メタデータ) (2023-06-02T13:29:32Z) - Automating Pipelines of A/B Tests with Population Split Using
Self-Adaptation and Machine Learning [10.635137352476246]
A/Bテストは、新しい機能の導入や既存のソフトウェアの変更を通じてイノベーションを促進するために、業界でよく使われるアプローチである。
伝統的に、A/Bテストは順次実施され、各実験は対応するアプリケーションの全人口を対象としている。
これらの問題に対処するために,A/Bテストのパイプライン実行を自動化するAutoPABSという,新たな自己適応型アプローチを導入する。
論文 参考訳(メタデータ) (2023-06-02T09:54:59Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - Design-Bench: Benchmarks for Data-Driven Offline Model-Based
Optimization [82.02008764719896]
ブラックボックスモデルに基づく最適化問題は、タンパク質、DNA配列、航空機、ロボットの設計など、幅広い領域で広く使われている。
本稿では,統合評価プロトコルと最近の手法の参照実装を備えたオフラインMBOのためのベンチマークであるDesign-Benchを提案する。
私たちのベンチマークには、生物学、材料科学、ロボット工学における現実世界の最適化問題から派生した、多種多様な現実的なタスクが含まれています。
論文 参考訳(メタデータ) (2022-02-17T05:33:27Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - On Introducing Automatic Test Case Generation in Practice: A Success
Story and Lessons Learned [7.717446055777458]
本稿では,中規模企業におけるシステムテストスイートの自動生成技術の導入経験について報告する。
自動テストケース生成を導入する際に直面する技術的および組織的障害について説明する。
弊社が開発したテストケースジェネレータ ABT2.0 を紹介します。
論文 参考訳(メタデータ) (2021-02-28T11:31:50Z) - Rethinking Online Action Detection in Untrimmed Videos: A Novel Online
Evaluation Protocol [9.3576825415122]
オンラインアクション検出(OAD)問題を再検討する必要がある。
従来のオフラインアクション検出アプローチとは異なり、OAD設定では、非常に少ない作業と、使用する評価プロトコルに関するコンセンサスがないことが分かりました。
本稿では,OADのシナリオを再考し,問題そのものと,オンラインとみなすモデルが従わなければならない主な特徴を明確に定義する。
論文 参考訳(メタデータ) (2020-03-26T17:13:55Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。