論文の概要: An Analysis of LLM Fine-Tuning and Few-Shot Learning for Flaky Test Detection and Classification
- arxiv url: http://arxiv.org/abs/2502.02715v1
- Date: Tue, 04 Feb 2025 20:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:10.644392
- Title: An Analysis of LLM Fine-Tuning and Few-Shot Learning for Flaky Test Detection and Classification
- Title(参考訳): フレキシブルテスト検出と分類のためのLLM微細チューニングとFew-Shot学習の解析
- Authors: Riddhi More, Jeremy S. Bradbury,
- Abstract要約: 燃えるようなテストは実行中に非決定的な振る舞いを示す。
テストの振る舞いの多様性のため、燃えるようなテストの検出と分類は難しい。
- 参考スコア(独自算出の注目度): 1.9336815376402723
- License:
- Abstract: Flaky tests exhibit non-deterministic behavior during execution and they may pass or fail without any changes to the program under test. Detecting and classifying these flaky tests is crucial for maintaining the robustness of automated test suites and ensuring the overall reliability and confidence in the testing. However, flaky test detection and classification is challenging due to the variability in test behavior, which can depend on environmental conditions and subtle code interactions. Large Language Models (LLMs) offer promising approaches to address this challenge, with fine-tuning and few-shot learning (FSL) emerging as viable techniques. With enough data fine-tuning a pre-trained LLM can achieve high accuracy, making it suitable for organizations with more resources. Alternatively, we introduce FlakyXbert, an FSL approach that employs a Siamese network architecture to train efficiently with limited data. To understand the performance and cost differences between these two methods, we compare fine-tuning on larger datasets with FSL in scenarios restricted by smaller datasets. Our evaluation involves two existing flaky test datasets, FlakyCat and IDoFT. Our results suggest that while fine-tuning can achieve high accuracy, FSL provides a cost-effective approach with competitive accuracy, which is especially beneficial for organizations or projects with limited historical data available for training. These findings underscore the viability of both fine-tuning and FSL in flaky test detection and classification with each suited to different organizational needs and resource availability.
- Abstract(参考訳): 不安定なテストは実行中に非決定的な振る舞いを示し、テスト中のプログラムに変更を加えることなく通過または失敗する可能性がある。
これらの不安定なテストの検出と分類は、自動テストスイートの堅牢性を維持し、テスト全体の信頼性と信頼性を保証するために不可欠である。
しかし、環境条件や微妙なコード相互作用に依存するテスト動作の多様性のため、フレキなテスト検出と分類は困難である。
大規模言語モデル(LLM)は、この課題に対処するための有望なアプローチを提供する。
十分なデータを精巧に調整することで、事前訓練されたLLMは高い精度を達成でき、より多くのリソースを持つ組織に適している。
あるいは、限られたデータで効率的にトレーニングするために、Siameseネットワークアーキテクチャを利用するFlakyXbertを導入する。
これら2つの手法のパフォーマンスとコストの差異を理解するため、より小さなデータセットに制限されたシナリオにおいて、より大規模なデータセットの微調整とFSLを比較した。
評価には、FrakyCatとIDoFTの2つの既存のフレキテストデータセットが関係している。
以上の結果から, 微調整は高い精度を達成できるが, FSLは競争精度の高いコスト効率のアプローチであり, トレーニングに利用可能な履歴データが限られている組織やプロジェクトにとって特に有益であることが示唆された。
これらの知見は, 組織のニーズや資源の可利用性に適合し, 微調整とFSLの両面において, フレキな検査検出と分類が可能であることを裏付けるものである。
関連論文リスト
- Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - FlaKat: A Machine Learning-Based Categorization Framework for Flaky
Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。
State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文 参考訳(メタデータ) (2024-03-01T22:00:44Z) - An Adaptive Plug-and-Play Network for Few-Shot Learning [12.023266104119289]
少数のサンプルから学んだ後、新しいサンプルを分類するモデルが必要である。
ディープネットワークと複雑なメトリクスはオーバーフィッティングを引き起こす傾向があり、パフォーマンスをさらに改善することは困難である。
プラグアンドプレイ型モデル適応型リサイザ (MAR) とアダプティブ類似度測定器 (ASM) をその他の損失なく提案する。
論文 参考訳(メタデータ) (2023-02-18T13:25:04Z) - Benchmark for Uncertainty & Robustness in Self-Supervised Learning [0.0]
セルフ・スーパーバイザード・ラーニングは現実世界のアプリケーション、特に医療や自動運転車のようなデータ・ハングリーな分野に不可欠である。
本稿では Jigsaw Puzzles, Context, Rotation, Geometric Transformations Prediction for vision や BERT や GPT for Language Task など,SSL メソッドの変種について検討する。
我々のゴールは、実験から出力されたベンチマークを作成し、信頼性のある機械学習で新しいSSLメソッドの出発点を提供することです。
論文 参考訳(メタデータ) (2022-12-23T15:46:23Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Hybrid Consistency Training with Prototype Adaptation for Few-Shot
Learning [11.873143649261362]
Few-Shot Learningは、低データ構造におけるモデルの一般化能力を改善することを目的としている。
近年のFSL研究は,メートル法学習,メタラーニング,表現学習などを通じて着実に進展している。
論文 参考訳(メタデータ) (2020-11-19T19:51:33Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。