論文の概要: Can Offline A/B Testing Be Automated for Data-Driven Requirement
Engineering?
- arxiv url: http://arxiv.org/abs/2312.10624v1
- Date: Sun, 17 Dec 2023 06:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:35:05.712929
- Title: Can Offline A/B Testing Be Automated for Data-Driven Requirement
Engineering?
- Title(参考訳): データ駆動要求エンジニアリングのためにオフラインA/Bテストは自動化できるか?
- Authors: Jie JW Wu
- Abstract要約: オフラインA/Bテストは、履歴ログデータを推定することで、新しい技術のオフライン評価を実行することを目的として、注目を集めている。
本稿では,最新のログに対してオフラインA/Bテストの変種を自動的に実行し,オフライン評価結果を更新するAutoOffABを提案する。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online A/B testing has been widely used by software companies to evaluate the
impact of new technologies by offering it to a groups of users and comparing
against the unmodified product. However, running online A/B testing needs not
only efforts in design, implementation and stakeholders' approval to be served
in production, but also several weeks to collect the data in iterations. To
address these issues, a recent emerging topic, called \textit{offline A/B
testing}, is getting increasing attention, with the goal to conduct offline
evaluation of a new technology by estimating historical logged data. Although
this approach is promising due to lower implementation effort, faster
turnaround time and no potential user harm, for it to be effectively
prioritized as requirements in practice, several limitations need to be
addressed, including its discrepancy with online A/B test results, and lack of
systematic updates on new data. In response, in this vision paper, we introduce
AutoOffAB, an idea to automatically runs variants of offline A/B testing
against recent logging and update the offline evaluation results, which are
used to make decisions on requirements more reliably and systematically.
- Abstract(参考訳): オンラインA/Bテストは、ソフトウェア企業がユーザグループに提供し、修正されていない製品と比較することによって、新しいテクノロジの影響を評価するために広く利用されている。
しかし、オンラインA/Bテストを実行するには、設計、実装、ステークホルダーの承認が本番環境で提供されるだけでなく、イテレーションでデータを収集する数週間もかかる。
これらの問題に対処するため、最近の話題である‘textit{offline A/B testing} が注目されている。
このアプローチは、実装の労力が減り、ターンアラウンド時間が短縮され、潜在的なユーザ被害がないため、現実的な要件として効果的に優先順位付けする必要があるが、オンラインA/Bテスト結果との相違、新しいデータの体系的な更新の欠如など、いくつかの制限に対処する必要がある。
そこで本稿では,近年のログに対するオフラインa/bテストの変種の自動実行と,要件の信頼性と体系的決定に使用されるオフライン評価結果の更新を行うautooffabを提案する。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - Rubric-Specific Approach to Automated Essay Scoring with Augmentation
Training [0.1227734309612871]
本稿では,従来の研究で見過ごされた機能や特徴を学習するために,自動スコアリングモデルの訓練とテストを行う一連のデータ拡張操作を提案する。
自動学生評価賞(Automated Students Assessment Prize)データセットにおいて,最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-09-06T05:51:19Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Automating Pipelines of A/B Tests with Population Split Using
Self-Adaptation and Machine Learning [10.635137352476246]
A/Bテストは、新しい機能の導入や既存のソフトウェアの変更を通じてイノベーションを促進するために、業界でよく使われるアプローチである。
伝統的に、A/Bテストは順次実施され、各実験は対応するアプリケーションの全人口を対象としている。
これらの問題に対処するために,A/Bテストのパイプライン実行を自動化するAutoPABSという,新たな自己適応型アプローチを導入する。
論文 参考訳(メタデータ) (2023-06-02T09:54:59Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - On Introducing Automatic Test Case Generation in Practice: A Success
Story and Lessons Learned [7.717446055777458]
本稿では,中規模企業におけるシステムテストスイートの自動生成技術の導入経験について報告する。
自動テストケース生成を導入する際に直面する技術的および組織的障害について説明する。
弊社が開発したテストケースジェネレータ ABT2.0 を紹介します。
論文 参考訳(メタデータ) (2021-02-28T11:31:50Z) - Online and Scalable Model Selection with Multi-Armed Bandits [0.0]
AMS(Automatic Model Selector)は、現実世界のパフォーマンスメトリクスに基づいた入札戦略のスケーラブルなオンライン選択のためのシステムです。
AMSは、最高のパフォーマンスのモデルに最もトラフィックを割り当て、オンラインパフォーマンスが悪い人にトラフィックを減らします。
複数の広告キャンペーンのライブトラフィックテストでは、AMSシステムは広告キャンペーンのパフォーマンス向上に非常に効果的であることが証明されました。
論文 参考訳(メタデータ) (2021-01-25T20:12:52Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。