Fugu-MT 論文翻訳(概要): Automatic High-Level Test Case Generation using Large Language Models

論文の概要: Automatic High-Level Test Case Generation using Large Language Models

arxiv url: http://arxiv.org/abs/2503.17998v1
Date: Sun, 23 Mar 2025 09:14:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.939026
Title: Automatic High-Level Test Case Generation using Large Language Models
Title（参考訳）: 大規模言語モデルを用いた高レベルテストケースの自動生成
Authors: Navid Bin Hasan, Md. Ashraful Islam, Junaed Younus Khan, Sanjida Senjik, Anindya Iqbal,
Abstract要約: 主な課題は、テストスクリプトを書くのではなく、テスト作業とビジネス要件の整合性です。我々は、高レベルのテストケースを生成するためのトレーニング/ファインチューンモデルを構築するユースケースデータセットを構築した。当社の積極的なアプローチは要件テストのアライメントを強化し,早期テストケース生成を容易にする。
参考スコア（独自算出の注目度）: 1.8136446064778242
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We explored the challenges practitioners face in software testing and proposed automated solutions to address these obstacles. We began with a survey of local software companies and 26 practitioners, revealing that the primary challenge is not writing test scripts but aligning testing efforts with business requirements. Based on these insights, we constructed a use-case $\rightarrow$ (high-level) test-cases dataset to train/fine-tune models for generating high-level test cases. High-level test cases specify what aspects of the software's functionality need to be tested, along with the expected outcomes. We evaluated large language models, such as GPT-4o, Gemini, LLaMA 3.1 8B, and Mistral 7B, where fine-tuning (the latter two) yields improved performance. A final (human evaluation) survey confirmed the effectiveness of these generated test cases. Our proactive approach strengthens requirement-testing alignment and facilitates early test case generation to streamline development.
Abstract（参考訳）: ソフトウェアテストで実践者が直面する課題について検討し、これらの障害に対処する自動化ソリューションを提案しました。私たちはまず、地元のソフトウェア企業と26人の実践者を対象に調査を行い、主な課題はテストスクリプトを書くことではなく、テスト作業とビジネス要件を整合させることであることを明らかにしました。これらの知見に基づいて、高レベルのテストケースを生成するために、テストケース(高レベルの)データセットをユースケースとして構築しました。高レベルのテストケースでは、期待される結果とともに、ソフトウェア機能のどの側面をテストする必要があるかを定義します。 GPT-4o, Gemini, LLaMA 3.1 8B, Mistral 7Bなどの大規模言語モデルの評価を行った。最終(人間による評価)調査では、これらのテストケースの有効性が確認された。当社の積極的なアプローチは要求-テストのアライメントを強化し、早期テストケース生成を容易にし、開発を効率化します。

関連論文リスト

Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文参考訳（メタデータ） (2026-02-04T06:30:40Z)
Intention-Driven Generation of Project-Specific Test Cases [45.2380093475221]
検証意図の記述からプロジェクト固有のテストを生成するIntentionTestを提案する。 13のオープンソースプロジェクトから4,146件のテストケースで,最先端のベースライン(DA, ChatTester, EvoSuite)に対してIntentionTestを広範囲に評価した。
論文参考訳（メタデータ） (2025-07-28T08:35:04Z)
CodeContests+: High-Quality Test Case Generation for Competitive Programming [14.602111331209203]
本稿では,競合プログラミング問題に対する高品質なテストケースを作成するエージェントシステムを提案する。我々は、このシステムをCodeContestsデータセットに適用し、CodeContests+というテストケースを改善した新しいバージョンを提案する。その結果、CodeContests+はCodeContestsよりもはるかに高い精度を実現し、特にTPR(True Positive Rate)が顕著であることがわかった。
論文参考訳（メタデータ） (2025-06-06T07:29:01Z)
TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文参考訳（メタデータ） (2025-06-03T16:07:54Z)
Ever-Improving Test Suite by Leveraging Large Language Models [0.0]
ソフトウェアシステムの実際の使用を反映したテストケースによるテストスイートの拡大は、長く続くソフトウェアシステムの品質を維持する上で非常に重要である。 E-Testは、本番環境で発生しまだテストされていない動作を実行するテストケースでテストスイートを漸進的に拡張するアプローチである。
論文参考訳（メタデータ） (2025-04-15T13:38:25Z)
Acceptance Test Generation with Large Language Models: An Industrial Case Study [0.7874708385247353]
大規模言語モデル(LLM)を利用したアシスタントは、プログラムコードや単体テストの生成にますます利用されている。本稿では,2段階のプロセスでWebアプリケーションの実行可能受け入れテストを生成するLLMについて検討する。この2段階のアプローチは、受け入れテスト駆動開発をサポートし、テスターコントロールを強化し、テスト品質を向上させる。
論文参考訳（メタデータ） (2025-04-09T19:33:38Z)
System Test Case Design from Requirements Specifications: Insights and Challenges of Using ChatGPT [1.9282110216621835]
本稿では,Large Language Models (LLMs) を用いてソフトウェア要件仕様 (SRS) 文書からテストケース設計を作成することの有効性について検討する。生成したテストケースの約87%が有効で、残りの13%は適用不可能か冗長かのどちらかでした。
論文参考訳（メタデータ） (2024-12-04T20:12:27Z)
Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文参考訳（メタデータ） (2024-10-31T15:06:16Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文参考訳（メタデータ） (2024-08-21T15:35:34Z)
Automated Test Case Repair Using Language Models [0.5708902722746041]
欠陥のないテストケースは、テストスイートの品質を低下させ、ソフトウェア開発プロセスを破壊します。テストケースの自動修復に事前訓練されたコード言語モデルを活用する新しいアプローチであるTaRGETを提案する。 TaRGETは、テスト修復を言語翻訳タスクとして扱い、言語モデルを微調整するために2段階のプロセスを使用する。
論文参考訳（メタデータ） (2024-01-12T18:56:57Z)
Automatic Generation of Test Cases based on Bug Reports: a Feasibility Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文参考訳（メタデータ） (2023-10-10T05:30:12Z)
Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文参考訳（メタデータ） (2023-07-28T12:38:44Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文参考訳（メタデータ） (2022-04-06T06:39:40Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。