論文の概要: Fixturize: Bridging the Fixture Gap in Test Generation
- arxiv url: http://arxiv.org/abs/2601.06615v1
- Date: Sat, 10 Jan 2026 16:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.903268
- Title: Fixturize: Bridging the Fixture Gap in Test Generation
- Title(参考訳): フィクスチャライズ:テスト生成におけるフィクスチャギャップのブリッジ
- Authors: Pengyu Xue, Chengyi Wang, Zhen Yang, Xiapu Luo, Yuxuan Zhang, Xiran Lyu, Yifei Pei, Zonghan Jia, Yichen Sun, Linhao Wu, Kunwu Zheng,
- Abstract要約: Fixturizeは、フィクスチャに依存した機能を積極的に識別する診断フレームワークである。
反復的なフィードバック駆動プロセスを通じてテストフィクスチャを合成する。
- 参考スコア(独自算出の注目度): 31.82935387488973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Models (LLMs) have advanced automated unit test generation but face a critical limitation: they often neglect to construct the necessary test fixtures, which are the environmental setups required for a test to run. To bridge this gap, this paper proposes Fixturize, a diagnostic framework that proactively identifies fixture-dependent functions and synthesizes test fixtures accordingly through an iterative, feedback-driven process, thereby improving the quality of auto-generated test suites of existing approaches. For rigorous evaluation, the authors introduce FixtureEval, a dedicated benchmark comprising 600 curated functions across two Programming Languages (PLs), i.e., Python and Java, with explicit fixture dependency labels, enabling both the corresponding classification and generation tasks. Empirical results demonstrate that Fixturize is highly effective, achieving 88.38%-97.00% accuracy across benchmarks in identifying the dependence of test fixtures and significantly enhancing the Suite Pass rate (SuitePS) by 18.03%-42.86% on average across both PLs with the auto-generated fixtures. Owing to the maintenance of test fixtures, Fixturize further improves line/branch coverage when integrated with existing testing tools of both LLM-based and Search-based by 16.85%/24.08% and 31.54%/119.66% on average, respectively. The findings establish fixture awareness as an essential, missing component in modern auto-testing pipelines.
- Abstract(参考訳): 現在のLarge Language Models(LLM)は、高度な自動ユニットテスト生成を持っているが、重大な制限に直面している。
このギャップを埋めるため,本論文では,フィクスチャ依存関数を積極的に識別し,反復的なフィードバック駆動プロセスを通じてテストフィクスチャを合成し,既存のアプローチの自動生成テストスイートの品質を向上させるための診断フレームワークであるFixturizeを提案する。
厳密な評価のために、著者らはFixtureEvalを紹介した。FixtureEvalは、2つのプログラミング言語(PL)、すなわちPythonとJavaで600のキュレートされた関数からなる専用ベンチマークで、明示的なFixture依存性ラベルを持ち、対応する分類タスクと生成タスクの両方を可能にする。
実証実験の結果、フィクスチャライズは非常に効果的であることが示され、テストフィクスチャの依存を識別するベンチマークで88.38%-97.00%の精度を達成し、自動生成フィクスチャを持つ両方のPLの平均18.03%-42.86%でスイートパスレート(SuitePS)を大幅に向上した。
テストフィクスチャのメンテナンスのため、FixturizeはLLMベースの既存のテストツールと検索ベースの既存のテストツールをそれぞれ16.85%/24.08%、平均で31.54%/119.66%改善している。
これらの知見は、現代の自動テストパイプラインにおいて、フィクスチャ認識が必須で欠落している要素であることを示す。
関連論文リスト
- The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。
本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文 参考訳(メタデータ) (2026-01-05T18:20:14Z) - Unit Test Update through LLM-Driven Context Collection and Error-Type-Aware Refinement [5.8748750353007635]
テストのメンテナンス方法は、主に壊れたテストの修復に焦点を当て、新しい機能を検証するために既存のテストを強化するシナリオを無視します。
実運用コードの変更に応じて、ジャスト・イン・タイムの自動テスト更新を可能にする新しいアプローチであるTESTUPDATERを提案する。
TestUPDATERは94.4%のコンパイルパス率と86.7%のテストパス率を達成し、それぞれ最先端のSYTERを15.9%と20.0%で上回っている。
論文 参考訳(メタデータ) (2025-09-29T08:08:22Z) - A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models [53.31664844941449]
ProActive Self-Refinement (PASR)は、大規模言語モデル(LLM)を改善する新しい方法である。
反応全体を再生する手法とは異なり、PASRはモデルの内部状態と進化コンテキストに基づいて、いつ、どのように精製するかを積極的に決定する。
PASRの有効性を評価するために,多種多様な10のタスクについて広範囲に実験を行った。
論文 参考訳(メタデータ) (2025-08-18T13:07:21Z) - PALM: Synergizing Program Analysis and LLMs to Enhance Rust Unit Test Coverage [14.702182387149547]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。
PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。
このアプローチを実装し、それを15のオープンソースのRustクラッドで評価します。
論文 参考訳(メタデータ) (2025-06-10T17:21:21Z) - Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。
累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文 参考訳(メタデータ) (2025-04-16T14:16:38Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。