論文の概要: Can Language Models Pass Software Testing Certification Exams? a case study
- arxiv url: http://arxiv.org/abs/2603.23142v1
- Date: Tue, 24 Mar 2026 12:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.479101
- Title: Can Language Models Pass Software Testing Certification Exams? a case study
- Title(参考訳): 言語モデルはソフトウェアテスト認定試験に合格できるか? : 事例研究
- Authors: Fitash Ul Haq, Jordi Cabot,
- Abstract要約: 本研究では,商用ベンダとオープンソースコミュニティの両方から60のマルチモーダル言語モデルを評価する。
評価は、International Software Testing Qualifications Boardの30のサンプル試験(コアファウンデーション、コアアドバンスト、スペシャリスト、エキスパート)によって行われる。
2つのモデルが認定試験に合格し、30の認定試験で少なくとも65%を獲得した。
- 参考スコア(独自算出の注目度): 2.5317298080728494
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) play a pivotal role in both academic research and broader societal applications. LLMs are increasingly used in software testing activities such as test case generation, selection, and repair. However, several important questions remain: (1) do LLMs possess enough information about software testing principles to perform software testing tasks effectively? (2) do LLMs possess sufficient conceptual understanding of software testing to answer software testing questions under metamorphic transformations? and (3) do certain properties of software testing questions influence the performance of LLMs? To answer these questions, this study evaluates 60 multimodal language models from both commercial vendors and the open-source community. The evaluation is performed using 30 sample exams of different types (core foundation, core advanced, specialist, and expert) from the International Software Testing Qualifications Board (ISTQB), which are used to assess the competence of human testers. In total, each model is evaluated on 1,171 questions. Furthermore, to ensure sufficient conceptual understanding, the models are also tested on exam questions transformed using context-preserving metamorphic techniques. Two models passed all the certifications by scoring at least 65% in all of the 30 certification exams, with commercial models generally outperforming open-source ones. We analyze the reasons behind incorrect answers and provide recommendations for improving the design of software testing certification exams.
- Abstract(参考訳): 大規模言語モデル(LLM)は、学術研究とより広範な社会的応用において重要な役割を担っている。
LLMは、テストケースの生成、選択、修復といったソフトウェアテスト活動でますます使われています。
1) LLMは、ソフトウェアテストタスクを効果的に実行するのに十分な、ソフトウェアテスト原則に関する情報を持っていますか?
(2) LLMは、メタモルフィック変換の下でソフトウェアテストの質問に答えるために、ソフトウェアテストの十分な概念的理解を持っているか?
そして(3) ソフトウェアテストの問題の特定の特性がLLMのパフォーマンスに影響を及ぼすか?
これらの疑問に答えるために、商用ベンダーとオープンソースコミュニティの両方から60のマルチモーダル言語モデルを評価した。
評価は、人間のテスタの能力を評価するために使用される国際ソフトウェアテスト基準委員会(ISTQB)から、異なるタイプの30のサンプル試験(コアファウンデーション、コアアドバンスト、スペシャリスト、エキスパート)を使用して行われる。
総じて、各モデルは1,171の質問で評価される。
さらに、十分な概念的理解を確保するため、文脈保存メタモルフィック技術を用いて変換された試験質問にもモデルを検証した。
2つのモデルは、30の認定試験で少なくとも65%のスコアを付け、すべての認定試験に合格した。
誤った回答の背景にある理由を分析し、ソフトウェアテスティング認定試験の設計を改善するための推奨事項を提供する。
関連論文リスト
- Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.517293765116307]
ユニットテストはソフトウェアの信頼性に不可欠だが、手動のテスト作成には時間がかかり、しばしば無視される。
本研究は,LLM生成単体テストの大規模評価をクラスレベルで行った最初の大規模評価である。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。
オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。
特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文 参考訳(メタデータ) (2024-06-06T22:07:50Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - An empirical study of testing machine learning in the wild [35.13282520395855]
機械学習(ML/DL)アルゴリズムは多くのソフトウェアシステムで採用されている。
インダクティブな性質のため、これらのシステムの品質を保証することは、研究コミュニティにとって重要な課題である。
ML/DLの品質保証に関する最近の研究は、信頼性を向上させるために、突然変異テストのような従来のソフトウェアテストの概念を適用している。
論文 参考訳(メタデータ) (2023-12-19T21:18:14Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。