論文の概要: Evaluating Large Language Models in Detecting Test Smells
- arxiv url: http://arxiv.org/abs/2407.19261v2
- Date: Tue, 30 Jul 2024 12:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 12:29:44.479514
- Title: Evaluating Large Language Models in Detecting Test Smells
- Title(参考訳): テストスメルの検出における大規模言語モデルの評価
- Authors: Keila Lucas, Rohit Gheyi, Elvys Soares, Márcio Ribeiro, Ivan Machado,
- Abstract要約: テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。
本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。
- 参考スコア(独自算出の注目度): 1.5691664836504473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test smells are coding issues that typically arise from inadequate practices, a lack of knowledge about effective testing, or deadline pressures to complete projects. The presence of test smells can negatively impact the maintainability and reliability of software. While there are tools that use advanced static analysis or machine learning techniques to detect test smells, these tools often require effort to be used. This study aims to evaluate the capability of Large Language Models (LLMs) in automatically detecting test smells. We evaluated ChatGPT-4, Mistral Large, and Gemini Advanced using 30 types of test smells across codebases in seven different programming languages collected from the literature. ChatGPT-4 identified 21 types of test smells. Gemini Advanced identified 17 types, while Mistral Large detected 15 types of test smells. Conclusion: The LLMs demonstrated potential as a valuable tool in identifying test smells.
- Abstract(参考訳): テストの臭いは、一般的に不適切なプラクティス、効果的なテストに関する知識の欠如、プロジェクトを完成させる期限のプレッシャーから生じるコーディングの問題です。
テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。
高度な静的分析や機械学習技術を使ってテストの臭いを検知するツールもあるが、これらのツールはよく使われる。
本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。
文献から収集した7つの異なるプログラミング言語のコードベースに30種類のテスト臭いを流し,ChatGPT-4,Mistral Large,Gemini Advancedを評価した。
ChatGPT-4は21種類の試験臭を同定した。
Gemini Advancedは17種を特定し、Mistral Largeは15種類の試験臭を検出した。
結論: LLMはテストの臭いを識別する貴重なツールとしての可能性を示した。
関連論文リスト
- xNose: A Test Smell Detector for C# [0.0]
テストの臭いは、コードの臭いに似ているが、テストコードとテスト中のプロダクションコードの両方に悪影響を及ぼす可能性がある。
Java、Scala、Pythonなどの言語でテストの臭いに関する広範な研究にもかかわらず、C#でテストの臭いを検出する自動ツールが不足している。
論文 参考訳(メタデータ) (2024-05-07T07:10:42Z) - A Catalog of Transformations to Remove Smells From Natural Language Tests [1.260984934917191]
テストの臭いは、保守性の低さ、非決定的な振る舞い、不完全な検証など、テスト活動中に困難を引き起こす可能性がある。
本稿では,自然言語テストの臭いを7つ除去するために設計された変換のカタログと,自然言語処理(NLP)技術を用いて実装された補助ツールを紹介する。
論文 参考訳(メタデータ) (2024-04-25T19:23:24Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Manual Tests Do Smell! Cataloging and Identifying Natural Language Test
Smells [1.43994708364763]
テストの臭いは、自動化されたソフトウェアテストの設計と実装における潜在的な問題を示しています。
本研究は,手動テストの匂いのカタログ化に寄与することを目的としている。
論文 参考訳(メタデータ) (2023-08-02T19:05:36Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Machine Learning-Based Test Smell Detection [17.957877801382413]
テストの匂いは、テストケースを開発する際に採用される最適な設計選択の症状である。
そこで本研究では,機械学習による新しいテスト臭検出手法の設計と実験を行い,4つのテスト臭検出手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T07:33:15Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - On the use of test smells for prediction of flaky tests [0.0]
不安定な検査は 検査結果の評価を妨げ コストを増大させる
既存のテストケース語彙の使用に基づくアプローチは、文脈に敏感であり、過度に適合する傾向がある。
フレキな検査の予測因子として, 試験臭の使用について検討した。
論文 参考訳(メタデータ) (2021-08-26T13:21:55Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。