論文の概要: Not Your Grandfathers Test Set: Reducing Labeling Effort for Testing
- arxiv url: http://arxiv.org/abs/2007.05499v1
- Date: Fri, 10 Jul 2020 17:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 21:15:16.854316
- Title: Not Your Grandfathers Test Set: Reducing Labeling Effort for Testing
- Title(参考訳): 祖父のテストセットではない - テストのためのラベル付け労力の削減
- Authors: Begum Taskazan, Jiri Navratil, Matthew Arnold, Anupama Murthi, Ganesh
Venkataraman, Benjamin Elder
- Abstract要約: 高品質なテストセットの構築とメンテナンスは、依然として退屈で高価な作業です。
本稿では,高品質なテストセットの構築と維持に要する労力を大幅に削減する手法を提案する。
- 参考スコア(独自算出の注目度): 5.0727678479257685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building and maintaining high-quality test sets remains a laborious and
expensive task. As a result, test sets in the real world are often not properly
kept up to date and drift from the production traffic they are supposed to
represent. The frequency and severity of this drift raises serious concerns
over the value of manually labeled test sets in the QA process. This paper
proposes a simple but effective technique that drastically reduces the effort
needed to construct and maintain a high-quality test set (reducing labeling
effort by 80-100% across a range of practical scenarios). This result
encourages a fundamental rethinking of the testing process by both
practitioners, who can use these techniques immediately to improve their
testing, and researchers who can help address many of the open questions raised
by this new approach.
- Abstract(参考訳): 高品質なテストセットの構築とメンテナンスは、いまだに手間とコストのかかる作業です。
結果として、実世界のテストセットは、しばしば、それらが表すはずのプロダクショントラフィックから、最新の状態に正しく維持されません。
このドリフトの頻度と重大さは、QAプロセスにおいて手動でラベル付けされたテストセットの価値に対する深刻な懸念を引き起こす。
本稿では,高品質なテストセットの構築と維持に要する労力を大幅に削減する,シンプルだが効果的な手法を提案する。
この結果は、これらのテクニックをすぐにテストを改善することができる実践者と、この新しいアプローチによって提起された多くのオープンな問題に対処できる研究者の両方による、テストプロセスの基本的な再検討を促進する。
関連論文リスト
- Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。
UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文 参考訳(メタデータ) (2024-08-21T15:35:34Z) - Improving LLM-based Unit test generation via Template-based Repair [8.22619177301814]
単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。
大規模言語モデル(LLM)は、顕著な推論と生成能力を示している。
本稿では,新しい単体テスト生成法であるTestARTを提案する。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Automated Test Case Repair Using Language Models [0.5708902722746041]
欠陥のないテストケースは、テストスイートの品質を低下させ、ソフトウェア開発プロセスを破壊します。
テストケースの自動修復に事前訓練されたコード言語モデルを活用する新しいアプローチであるTaRGetを提案する。
TaRGetは、テスト修復を言語翻訳タスクとして扱い、言語モデルを微調整するために2段階のプロセスを使用する。
論文 参考訳(メタデータ) (2024-01-12T18:56:57Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - Hybrid Intelligent Testing in Simulation-Based Verification [0.0]
数百万のテストは、カバレッジの目標を達成するために必要かもしれない。
カバレッジ指向のテスト選択は、カバレッジフィードバックからバイアステストまで、最も効果的なテストへと学習する。
ノベルティ駆動検証は、以前の刺激とは異なる刺激を識別し、シミュレートすることを学ぶ。
論文 参考訳(メタデータ) (2022-05-19T13:22:08Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z) - Towards Continuous Compounding Effects and Agile Practices in
Educational Experimentation [2.7094829962573304]
本稿では,異なる実験過程を分類する枠組みを定義する。
次世代の教育技術の成功は、プロセスの完全な集合を取り入れることによって後押しされる。
論文 参考訳(メタデータ) (2021-11-17T13:10:51Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。