論文の概要: Type-aware LLM-based Regression Test Generation for Python Programs
- arxiv url: http://arxiv.org/abs/2503.14000v2
- Date: Wed, 22 Oct 2025 07:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:04.724619
- Title: Type-aware LLM-based Regression Test Generation for Python Programs
- Title(参考訳): 型認識型LLMによるPythonプログラムの回帰テスト生成
- Authors: Runlin Liu, Zhe Zhang, Yunge Hu, Yuhang Lin, Xiang Gao, Hailong Sun,
- Abstract要約: Test4PyはPythonの自動テスト生成における型正しさを高める新しいフレームワークである。
Test4Pyは、生成したテストケースを段階的に洗練してカバレッジを改善する反復的な修復手順を統合する。
実世界のPythonモジュール183の評価において、Test4Pyは平均ステートメントカバレッジ83.0%、ブランチカバレッジ70.8%を達成した。
- 参考スコア(独自算出の注目度): 13.631541369653066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated regression test generation has been extensively explored, yet generating high-quality tests for Python programs remains particularly challenging. Because of the Python's dynamic typing features, existing approaches, ranging from search-based software testing (SBST) to recent LLM-driven techniques, are often prone to type errors. Hence, existing methods often generate invalid inputs and semantically inconsistent test cases, which ultimately undermine their practical effectiveness. To address these limitations, we present Test4Py, a novel framework that enhances type correctness in automated test generation for Python. Test4Py leverages the program's call graph to capture richer contextual information about parameters, and introduces a behavior-based type inference mechanism that accurately infers parameter types and construct valid test inputs. Beyond input construction, Test4Py integrates an iterative repair procedure that progressively refines generated test cases to improve coverage. In an evaluation on 183 real-world Python modules, Test4Py achieved an average statement coverage of 83.0% and branch coverage of 70.8%, outperforming state-of-the-art tools by 7.2% and 8.4%, respectively.
- Abstract(参考訳): 自動回帰テスト生成は広く研究されているが、Pythonプログラムの高品質なテストを生成することは特に難しい。
Pythonの動的型付け機能のため、検索ベースのソフトウェアテスト(SBST)から最近のLLM駆動技術まで、既存のアプローチは、しばしば型エラーを起こしやすい。
したがって、既存の手法は、しばしば不正な入力を生成し、意味的に一貫性のないテストケースを生成し、最終的にその実用性を損なう。
これらの制限に対処するため、Pythonの自動テスト生成における型正しさを高める新しいフレームワークであるTest4Pyを紹介します。
Test4Pyはプログラムのコールグラフを利用して、パラメータに関するよりリッチなコンテキスト情報をキャプチャし、パラメータの型を正確に推論し、有効なテスト入力を構築する振る舞いベースの型推論メカニズムを導入する。
Test4Pyは、入力構成以外にも、生成したテストケースを段階的に洗練してカバレッジを改善する反復的な修復手順を統合している。
実世界のPythonモジュール183の評価において、Test4Pyは平均ステートメントカバレッジ83.0%、ブランチカバレッジ70.8%を達成した。
関連論文リスト
- Synthesizing File-Level Data for Unit Test Generation with Chain-of-Thoughts via Self-Debugging [40.29934051200609]
本稿では,高品質なUTトレーニングを実現するための新しいデータ蒸留手法を提案する。
このパイプラインをオープンソースプロジェクトの大規模なコーパスに適用します。
実験により, 微調整モデルにより, UT生成効率が高いことを示す。
論文 参考訳(メタデータ) (2026-02-03T06:52:54Z) - Reflective Unit Test Generation for Precise Type Error Detection with Large Language Models [13.969152395348653]
RTEDはPythonの型エラーを自動的に検出する型認識テスト生成技術である。
RTEDは4つの最先端技術よりも22-29のベンチマーク型エラーを検出できることを示す。
また、偽陽性を減らし、173.9%-245.9%の精度で改善できる。
論文 参考訳(メタデータ) (2025-07-03T05:10:33Z) - Combining Type Inference and Automated Unit Test Generation for Python [9.856068089918555]
Pythonのような動的型付けプログラミング言語における型情報の欠如は、テストジェネレータを阻害する。
本稿では、実行中に型関連情報を抽出し、利用可能な型情報を徐々に洗練する型トレースについて紹介する。
このアプローチでは、ブランチカバレッジが最大90.0%増加し、突然変異スコアが向上し、他の最先端の型推論ツールが生成するものと同じような品質の情報をタイプする。
論文 参考訳(メタデータ) (2025-07-02T08:41:28Z) - Boosting Rust Unit Test Coverage through Hybrid Program Analysis and Large Language Models [14.536415473544146]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。
PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。
このアプローチを実装し、それを10のオープンソースのRustクラッドで評価します。
論文 参考訳(メタデータ) (2025-06-10T17:21:21Z) - Examining False Positives under Inference Scaling for Mathematical Reasoning [83.97128486951999]
言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。
実験結果から,(1)異なるモデル,データセット,復号化手法,(2)サンプリングベース推論時間スケーリング手法では問題を緩和できないこと,(3)pass@N評価基準の方が偽陽性の影響を受けやすいこと,などが明らかになった。
論文 参考訳(メタデータ) (2025-02-10T07:49:35Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。
私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。
私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。
初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。
パラメータは7Bから405Bまで様々である。
論文 参考訳(メタデータ) (2024-10-01T14:47:05Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.833381226332574]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。
TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - An Empirical Evaluation of Using Large Language Models for Automated
Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。
これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。
TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文 参考訳(メタデータ) (2023-02-13T17:13:41Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。