論文の概要: AutoOffAB: Toward Automated Offline A/B Testing for Data-Driven Requirement Engineering
- arxiv url: http://arxiv.org/abs/2312.10624v2
- Date: Fri, 9 Aug 2024 08:17:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 20:40:55.668492
- Title: AutoOffAB: Toward Automated Offline A/B Testing for Data-Driven Requirement Engineering
- Title(参考訳): AutoOffAB: データ駆動要求エンジニアリングのためのオフラインA/Bテスト自動化を目指す
- Authors: Jie JW Wu,
- Abstract要約: 「オフラインA/Bテスト」が注目され、過去の記録データを推定し、新技術のオフライン評価を行うことを目指している。
本稿では,最新のログに対してオフラインA/Bテストの変種を自動的に実行し,オフライン評価結果を更新するAutoOffABを提案する。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software companies have widely used online A/B testing to evaluate the impact of a new technology by offering it to groups of users and comparing it against the unmodified product. However, running online A/B testing needs not only efforts in design, implementation, and stakeholders' approval to be served in production but also several weeks to collect the data in iterations. To address these issues, a recently emerging topic, called "Offline A/B Testing", is getting increasing attention, intending to conduct the offline evaluation of new technologies by estimating historical logged data. Although this approach is promising due to lower implementation effort, faster turnaround time, and no potential user harm, for it to be effectively prioritized as requirements in practice, several limitations need to be addressed, including its discrepancy with online A/B test results, and lack of systematic updates on varying data and parameters. In response, in this vision paper, I introduce AutoOffAB, an idea to automatically run variants of offline A/B testing against recent logging and update the offline evaluation results, which are used to make decisions on requirements more reliably and systematically.
- Abstract(参考訳): ソフトウェア企業は、オンラインA/Bテストを使用して、新しいテクノロジの影響を評価し、ユーザグループに提供し、修正されていない製品と比較している。
しかし、オンラインA/Bテストを実行するには、設計、実装、ステークホルダーの承認が本番環境で提供されるだけでなく、イテレーションでデータを集めるのに数週間かかる必要がある。
これらの問題に対処するため、最近、"Offline A/B Testing"と呼ばれるトピックが注目され、履歴記録データを推定することで、新しい技術のオフライン評価を行うことを目指している。
このアプローチは、実装の労力の削減、ターンアラウンドタイムの短縮、潜在的なユーザ被害の回避などによって有望だが、実際に要求として効果的に優先順位付けされるためには、オンラインA/Bテスト結果との整合性、さまざまなデータやパラメータの体系的な更新の欠如など、いくつかの制限に対処する必要がある。
このビジョンペーパーでは、最新のロギングに対してオフラインA/Bテストの変種を自動的に実行し、オフライン評価結果を更新するアイデアであるAutoOffABを紹介します。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - Rubric-Specific Approach to Automated Essay Scoring with Augmentation
Training [0.1227734309612871]
本稿では,従来の研究で見過ごされた機能や特徴を学習するために,自動スコアリングモデルの訓練とテストを行う一連のデータ拡張操作を提案する。
自動学生評価賞(Automated Students Assessment Prize)データセットにおいて,最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-09-06T05:51:19Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Automating Pipelines of A/B Tests with Population Split Using
Self-Adaptation and Machine Learning [10.635137352476246]
A/Bテストは、新しい機能の導入や既存のソフトウェアの変更を通じてイノベーションを促進するために、業界でよく使われるアプローチである。
伝統的に、A/Bテストは順次実施され、各実験は対応するアプリケーションの全人口を対象としている。
これらの問題に対処するために,A/Bテストのパイプライン実行を自動化するAutoPABSという,新たな自己適応型アプローチを導入する。
論文 参考訳(メタデータ) (2023-06-02T09:54:59Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - On Introducing Automatic Test Case Generation in Practice: A Success
Story and Lessons Learned [7.717446055777458]
本稿では,中規模企業におけるシステムテストスイートの自動生成技術の導入経験について報告する。
自動テストケース生成を導入する際に直面する技術的および組織的障害について説明する。
弊社が開発したテストケースジェネレータ ABT2.0 を紹介します。
論文 参考訳(メタデータ) (2021-02-28T11:31:50Z) - Online and Scalable Model Selection with Multi-Armed Bandits [0.0]
AMS(Automatic Model Selector)は、現実世界のパフォーマンスメトリクスに基づいた入札戦略のスケーラブルなオンライン選択のためのシステムです。
AMSは、最高のパフォーマンスのモデルに最もトラフィックを割り当て、オンラインパフォーマンスが悪い人にトラフィックを減らします。
複数の広告キャンペーンのライブトラフィックテストでは、AMSシステムは広告キャンペーンのパフォーマンス向上に非常に効果的であることが証明されました。
論文 参考訳(メタデータ) (2021-01-25T20:12:52Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。