Fugu-MT 論文翻訳(概要): Can Offline A/B Testing Be Automated for Data-Driven Requirement Engineering?

論文の概要: Can Offline A/B Testing Be Automated for Data-Driven Requirement Engineering?

arxiv url: http://arxiv.org/abs/2312.10624v1
Date: Sun, 17 Dec 2023 06:49:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 15:35:05.712929
Title: Can Offline A/B Testing Be Automated for Data-Driven Requirement Engineering?
Title（参考訳）: データ駆動要求エンジニアリングのためにオフラインA/Bテストは自動化できるか?
Authors: Jie JW Wu
Abstract要約: オフラインA/Bテストは、履歴ログデータを推定することで、新しい技術のオフライン評価を実行することを目的として、注目を集めている。本稿では,最新のログに対してオフラインA/Bテストの変種を自動的に実行し,オフライン評価結果を更新するAutoOffABを提案する。
参考スコア（独自算出の注目度）: 0.7252027234425334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online A/B testing has been widely used by software companies to evaluate the impact of new technologies by offering it to a groups of users and comparing against the unmodified product. However, running online A/B testing needs not only efforts in design, implementation and stakeholders' approval to be served in production, but also several weeks to collect the data in iterations. To address these issues, a recent emerging topic, called \textit{offline A/B testing}, is getting increasing attention, with the goal to conduct offline evaluation of a new technology by estimating historical logged data. Although this approach is promising due to lower implementation effort, faster turnaround time and no potential user harm, for it to be effectively prioritized as requirements in practice, several limitations need to be addressed, including its discrepancy with online A/B test results, and lack of systematic updates on new data. In response, in this vision paper, we introduce AutoOffAB, an idea to automatically runs variants of offline A/B testing against recent logging and update the offline evaluation results, which are used to make decisions on requirements more reliably and systematically.
Abstract（参考訳）: オンラインA/Bテストは、ソフトウェア企業がユーザグループに提供し、修正されていない製品と比較することによって、新しいテクノロジの影響を評価するために広く利用されている。しかし、オンラインA/Bテストを実行するには、設計、実装、ステークホルダーの承認が本番環境で提供されるだけでなく、イテレーションでデータを収集する数週間もかかる。これらの問題に対処するため、最近の話題である‘textit{offline A/B testing} が注目されている。このアプローチは、実装の労力が減り、ターンアラウンド時間が短縮され、潜在的なユーザ被害がないため、現実的な要件として効果的に優先順位付けする必要があるが、オンラインA/Bテスト結果との相違、新しいデータの体系的な更新の欠如など、いくつかの制限に対処する必要がある。そこで本稿では,近年のログに対するオフラインa/bテストの変種の自動実行と,要件の信頼性と体系的決定に使用されるオフライン評価結果の更新を行うautooffabを提案する。

関連論文リスト

Harnessing the Power of Interleaving and Counterfactual Evaluation for Airbnb Search Ranking [14.97060265751423]
評価は,検索・推薦システムにおけるランキングアルゴリズムの開発において重要な役割を担っている。オンライン環境は因果推論技術の適用に寄与する。効果的なA/Bテストでは、ビジネスはユニークな課題に直面します。
論文参考訳（メタデータ） (2025-08-01T16:28:18Z)
Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
BAT: Benchmark for Auto-bidding Task [67.56067222427946]
本稿では,最も普及している2種類のオークション形式を含むオークションベンチマークを提案する。我々は,新しいデータセットに基づいて,一連の堅牢なベースラインを実装した。このベンチマークは、研究者や実践者が革新的なオートバイディングアルゴリズムを開発し、洗練するための、ユーザフレンドリで直感的なフレームワークを提供する。
論文参考訳（メタデータ） (2025-05-13T12:12:34Z)
An Autonomous RL Agent Methodology for Dynamic Web UI Testing in a BDD Framework [0.0]
本稿では,自律型強化学習(RL)エージェントを振る舞い駆動開発(BDD)フレームワークに統合し,ユーザインターフェーステストを強化する。 RLの適応的意思決定機能を活用することで、提案手法は、特定のビジネス期待や実際のユーザ行動に適合したテストシナリオを動的に生成し、洗練する。
論文参考訳（メタデータ） (2025-03-11T14:12:50Z)
Requirements-Driven Automated Software Testing: A Systematic Review [13.67495800498868]
本研究では,REDAST研究の現状を整理し,今後の方向性について考察する。この体系的な文献レビュー(SLR)は、要求入力、変換技術、テスト結果、評価方法、既存の制限を分析して、REDASTの展望を探求する。
論文参考訳（メタデータ） (2025-02-25T23:13:09Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文参考訳（メタデータ） (2024-05-27T23:51:20Z)
Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。 DAの明確な検証プロトコルは、文献の悪い実践につながっている。ドメイン適応手法の3つの分野にまたがる課題を示す。
論文参考訳（メタデータ） (2023-09-07T17:44:18Z)
Rubric-Specific Approach to Automated Essay Scoring with Augmentation Training [0.1227734309612871]
本稿では,従来の研究で見過ごされた機能や特徴を学習するために,自動スコアリングモデルの訓練とテストを行う一連のデータ拡張操作を提案する。自動学生評価賞(Automated Students Assessment Prize)データセットにおいて,最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2023-09-06T05:51:19Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Automating Pipelines of A/B Tests with Population Split Using Self-Adaptation and Machine Learning [10.635137352476246]
A/Bテストは、新しい機能の導入や既存のソフトウェアの変更を通じてイノベーションを促進するために、業界でよく使われるアプローチである。伝統的に、A/Bテストは順次実施され、各実験は対応するアプリケーションの全人口を対象としている。これらの問題に対処するために,A/Bテストのパイプライン実行を自動化するAutoPABSという,新たな自己適応型アプローチを導入する。
論文参考訳（メタデータ） (2023-06-02T09:54:59Z)
Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文参考訳（メタデータ） (2021-06-14T11:42:46Z)
Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文参考訳（メタデータ） (2021-03-30T18:09:33Z)
On Introducing Automatic Test Case Generation in Practice: A Success Story and Lessons Learned [7.717446055777458]
本稿では,中規模企業におけるシステムテストスイートの自動生成技術の導入経験について報告する。自動テストケース生成を導入する際に直面する技術的および組織的障害について説明する。弊社が開発したテストケースジェネレータ ABT2.0 を紹介します。
論文参考訳（メタデータ） (2021-02-28T11:31:50Z)
Online and Scalable Model Selection with Multi-Armed Bandits [0.0]
AMS(Automatic Model Selector)は、現実世界のパフォーマンスメトリクスに基づいた入札戦略のスケーラブルなオンライン選択のためのシステムです。 AMSは、最高のパフォーマンスのモデルに最もトラフィックを割り当て、オンラインパフォーマンスが悪い人にトラフィックを減らします。複数の広告キャンペーンのライブトラフィックテストでは、AMSシステムは広告キャンペーンのパフォーマンス向上に非常に効果的であることが証明されました。
論文参考訳（メタデータ） (2021-01-25T20:12:52Z)
Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-02-05T10:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。