論文の概要: Towards Explainable Test Case Prioritisation with Learning-to-Rank Models
- arxiv url: http://arxiv.org/abs/2405.13786v1
- Date: Wed, 22 May 2024 16:11:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 23:15:30.239929
- Title: Towards Explainable Test Case Prioritisation with Learning-to-Rank Models
- Title(参考訳): ラーニング・ツー・ランドモデルによる説明可能なテストケース優先順位付けに向けて
- Authors: Aurora Ramírez, Mario Berrios, José Raúl Romero, Robert Feldt,
- Abstract要約: テストケース優先順位付け(TCP)は、ソフトウェアが進化するにつれて品質を確保するために回帰テストにおいて重要なタスクである。
我々は、異なる説明を必要とするシナリオと、TCPの特異性がそれらにどのように影響するかを提示し、議論する。
- 参考スコア(独自算出の注目度): 6.289767078502329
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Test case prioritisation (TCP) is a critical task in regression testing to ensure quality as software evolves. Machine learning has become a common way to achieve it. In particular, learning-to-rank (LTR) algorithms provide an effective method of ordering and prioritising test cases. However, their use poses a challenge in terms of explainability, both globally at the model level and locally for particular results. Here, we present and discuss scenarios that require different explanations and how the particularities of TCP (multiple builds over time, test case and test suite variations, etc.) could influence them. We include a preliminary experiment to analyse the similarity of explanations, showing that they do not only vary depending on test case-specific predictions, but also on the relative ranks.
- Abstract(参考訳): テストケース優先順位付け(TCP)は、ソフトウェアが進化するにつれて品質を確保するために回帰テストにおいて重要なタスクである。
機械学習は、それを達成するための一般的な方法になっている。
特に、LTR(Learning-to-rank)アルゴリズムは、テストケースの順序付けと優先順位付けに有効な方法を提供する。
しかし、それらの利用は、世界レベルでも、特定の結果に関しても、説明可能性の観点からも問題となる。
ここでは、異なる説明を必要とするシナリオとTCPの特異性(複数ビルド、テストケース、テストスイートのバリエーションなど)がそれらにどのように影響するかを論じる。
説明の類似性を解析するための予備実験を含め、テストケース固有の予測だけでなく、相対的なランクにも異なることを示す。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Mind the instructions: a holistic evaluation of consistency and
interactions in prompt-based learning [14.569770617709073]
本稿では,どの設計選択が課題予測の不安定性や矛盾の原因となるかを詳細に分析する。
本稿では,入力分布とラベルの相関関係が,誘導モデルにのみ小さな問題となることを示す。
統計的に分析し、どの要因が最も影響力があり、インタラクティブで、安定したかを示す。
論文 参考訳(メタデータ) (2023-10-20T13:25:24Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。
このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Differential testing for machine learning: an analysis for
classification algorithms beyond deep learning [7.081604594416339]
我々はScikit-learn, Weka, Spark MLlib, Caretを用いてケーススタディを行う。
複数のフレームワークでどのアルゴリズムが利用できるかを考慮し、差分テストの可能性を特定する。
他のフレームワークで同じ設定を判断できないことが多いため、実現可能性には制限があるように思える。
論文 参考訳(メタデータ) (2022-07-25T08:27:01Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning
Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。
テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。
本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T03:41:10Z) - An Empirical Comparison of Instance Attribution Methods for NLP [62.63504976810927]
本研究は,トレーニングサンプルの重要性に関して,異なるインスタンス属性が一致した度合いを評価する。
単純な検索メソッドは、グラデーションベースの方法によって識別されたものと異なるトレーニングインスタンスを生成する。
論文 参考訳(メタデータ) (2021-04-09T01:03:17Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。