論文の概要: Testing Framework Migration with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.02964v1
- Date: Tue, 03 Feb 2026 01:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.167146
- Title: Testing Framework Migration with Large Language Models
- Title(参考訳): 大規模言語モデルによるフレームワークのマイグレーションテスト
- Authors: Altino Alves, João Eduardo Montandon, Andre Hora,
- Abstract要約: Python開発者は、textttunittestとtextttPytestの2つの主要なテストフレームワークに依存している。
我々は、textttunittest から textttPytest へのテストフレームワークのマイグレーションを自動化するLarge Language Models (LLMs) の機能について検討する。
- 参考スコア(独自算出の注目度): 0.29332247106953097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Python developers rely on two major testing frameworks: \texttt{unittest} and \texttt{Pytest}. While \texttt{Pytest} offers simpler assertions, reusable fixtures, and better interoperability, migrating existing suites from \texttt{unittest} remains a manual and time-consuming process. Automating this migration could substantially reduce effort and accelerate test modernization. In this paper, we investigate the capability of Large Language Models (LLMs) to automate test framework migrations from \texttt{unittest} to \texttt{Pytest}. We evaluate GPT 4o and Claude Sonnet 4 under three prompting strategies (Zero-shot, One-shot, and Chain-of-Thought) and two temperature settings (0.0 and 1.0). To support this analysis, we first introduce a curated dataset of real-world migrations extracted from the top 100 Python open-source projects. Next, we actually execute the LLM-generated test migrations in their respective test suites. Overall, we find that 51.5% of the LLM-generated test migrations failed, while 48.5% passed. The results suggest that LLMs can accelerate test migration, but there are often caveats. For example, Claude Sonnet 4 exhibited more conservative migrations (e.g., preserving class-based tests and legacy \texttt{unittest} references), while GPT-4o favored more transformations (e.g., to function-based tests). We conclude by discussing multiple implications for practitioners and researchers.
- Abstract(参考訳): Python開発者は2つの主要なテストフレームワークに依存している: \texttt{unittest} と \texttt{Pytest}。
\texttt{Pytest} はよりシンプルなアサーション、再利用可能なフィクスチャ、相互運用性の向上を提供するが、既存のスイートを \texttt{unittest} から移行することは、手作業と時間を要するプロセスのままである。
この移行を自動化することで、労力を大幅に削減し、テストの近代化を加速できます。
本稿では,Large Language Models (LLMs) によるテストフレームワークの自動移行機能について検討する。
GPT 4o と Claude Sonnet 4 の3つの促進策 (ゼロショット, ワンショット, チェーン・オブ・ソート) と2つの温度設定 (0.0, 1.0。
この分析をサポートするために、まず、Pythonのオープンソースプロジェクトのトップ100から抽出された実世界のマイグレーションのキュレートされたデータセットを紹介します。
次に、それぞれのテストスイートでLCMの生成したテストマイグレーションを実行します。
総じて、LCMが生成したテストマイグレーションの51.5%が失敗し、48.5%が通過した。
結果は、LSMはテストマイグレーションを加速するが、しばしば注意が必要であることを示唆している。
例えば、Claude Sonnet 4はより保守的な移行(例えば、クラスベースのテストとレガシーな \texttt{unittest} 参照)を示し、GPT-4oはより多くの変換(例えば、関数ベースのテスト)を好んだ。
我々は、実践者や研究者に対する複数の意味を議論することで結論付ける。
関連論文リスト
- LLMs for Automated Unit Test Generation and Assessment in Java: The AgoneTest Framework [2.501198441875755]
AgoneTestは、Javaにおける大規模言語モデル生成ユニットテストの評価フレームワークである。
コンパイルされるテストのサブセットでは、LLMの生成したテストは、カバレッジと欠陥検出の点で、人間によるテストと一致またはオーバーすることができる。
論文 参考訳(メタデータ) (2025-11-25T15:33:00Z) - GPT-4.1 Sets the Standard in Automated Experiment Design Using Novel Python Libraries [0.649540541957527]
大規模言語モデル(LLM)は、科学研究におけるコード生成を自動化するツールとして急速に進歩してきた。
本研究では,関数型Pythonコードを生成する上で,最先端のLLMの選択を体系的にベンチマークする。
結果は、モデルの小さなサブセットだけが一貫して正しい実行可能なコードを生成することを示している。
論文 参考訳(メタデータ) (2025-07-30T13:11:29Z) - YATE: The Role of Test Repair in LLM-Based Unit Test Generation [22.67442101368384]
本稿では,ルールベースの静的解析と再試行を組み合わせることで,これらの不正なテストのいくつかを修復する手法を提案する。
このシンプルなアプローチであるYATEを、6つのオープンソースプロジェクトのセットで評価する。
YATEは22%のラインカバレッジ、20%のブランチカバレッジ、20%のミュータントを同等のコストで削減する。
論文 参考訳(メタデータ) (2025-07-24T11:32:31Z) - EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (2025-03-18T17:19:12Z) - ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。
ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文 参考訳(メタデータ) (2025-02-10T15:24:30Z) - LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。
私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。
私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - An Empirical Evaluation of Using Large Language Models for Automated
Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。
これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。
TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文 参考訳(メタデータ) (2023-02-13T17:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。