論文の概要: Fixturize: Bridging the Fixture Gap in Test Generation
- arxiv url: http://arxiv.org/abs/2601.06615v1
- Date: Sat, 10 Jan 2026 16:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.903268
- Title: Fixturize: Bridging the Fixture Gap in Test Generation
- Title(参考訳): フィクスチャライズ:テスト生成におけるフィクスチャギャップのブリッジ
- Authors: Pengyu Xue, Chengyi Wang, Zhen Yang, Xiapu Luo, Yuxuan Zhang, Xiran Lyu, Yifei Pei, Zonghan Jia, Yichen Sun, Linhao Wu, Kunwu Zheng,
- Abstract要約: Fixturizeは、フィクスチャに依存した機能を積極的に識別する診断フレームワークである。
反復的なフィードバック駆動プロセスを通じてテストフィクスチャを合成する。
- 参考スコア(独自算出の注目度): 31.82935387488973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Models (LLMs) have advanced automated unit test generation but face a critical limitation: they often neglect to construct the necessary test fixtures, which are the environmental setups required for a test to run. To bridge this gap, this paper proposes Fixturize, a diagnostic framework that proactively identifies fixture-dependent functions and synthesizes test fixtures accordingly through an iterative, feedback-driven process, thereby improving the quality of auto-generated test suites of existing approaches. For rigorous evaluation, the authors introduce FixtureEval, a dedicated benchmark comprising 600 curated functions across two Programming Languages (PLs), i.e., Python and Java, with explicit fixture dependency labels, enabling both the corresponding classification and generation tasks. Empirical results demonstrate that Fixturize is highly effective, achieving 88.38%-97.00% accuracy across benchmarks in identifying the dependence of test fixtures and significantly enhancing the Suite Pass rate (SuitePS) by 18.03%-42.86% on average across both PLs with the auto-generated fixtures. Owing to the maintenance of test fixtures, Fixturize further improves line/branch coverage when integrated with existing testing tools of both LLM-based and Search-based by 16.85%/24.08% and 31.54%/119.66% on average, respectively. The findings establish fixture awareness as an essential, missing component in modern auto-testing pipelines.
- Abstract(参考訳): 現在のLarge Language Models(LLM)は、高度な自動ユニットテスト生成を持っているが、重大な制限に直面している。
このギャップを埋めるため,本論文では,フィクスチャ依存関数を積極的に識別し,反復的なフィードバック駆動プロセスを通じてテストフィクスチャを合成し,既存のアプローチの自動生成テストスイートの品質を向上させるための診断フレームワークであるFixturizeを提案する。
厳密な評価のために、著者らはFixtureEvalを紹介した。FixtureEvalは、2つのプログラミング言語(PL)、すなわちPythonとJavaで600のキュレートされた関数からなる専用ベンチマークで、明示的なFixture依存性ラベルを持ち、対応する分類タスクと生成タスクの両方を可能にする。
実証実験の結果、フィクスチャライズは非常に効果的であることが示され、テストフィクスチャの依存を識別するベンチマークで88.38%-97.00%の精度を達成し、自動生成フィクスチャを持つ両方のPLの平均18.03%-42.86%でスイートパスレート(SuitePS)を大幅に向上した。
テストフィクスチャのメンテナンスのため、FixturizeはLLMベースの既存のテストツールと検索ベースの既存のテストツールをそれぞれ16.85%/24.08%、平均で31.54%/119.66%改善している。
これらの知見は、現代の自動テストパイプラインにおいて、フィクスチャ認識が必須で欠落している要素であることを示す。
関連論文リスト
- PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - Synthesizing File-Level Data for Unit Test Generation with Chain-of-Thoughts via Self-Debugging [40.29934051200609]
本稿では,高品質なUTトレーニングを実現するための新しいデータ蒸留手法を提案する。
このパイプラインをオープンソースプロジェクトの大規模なコーパスに適用します。
実験により, 微調整モデルにより, UT生成効率が高いことを示す。
論文 参考訳(メタデータ) (2026-02-03T06:52:54Z) - The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。
本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文 参考訳(メタデータ) (2026-01-05T18:20:14Z) - KTester: Leveraging Domain and Testing Knowledge for More Effective LLM-based Test Generation [36.93577367023509]
本稿では、プロジェクト固有の知識を統合し、ドメイン知識をテストする新しいフレームワークであるKTesterについて述べる。
我々は、KTesterを複数のオープンソースプロジェクトで評価し、最先端のLCMベースラインと比較した。
結果は、KTesterが6つの主要なメトリクスで既存のメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-11-18T07:57:58Z) - Unit Test Update through LLM-Driven Context Collection and Error-Type-Aware Refinement [5.8748750353007635]
テストのメンテナンス方法は、主に壊れたテストの修復に焦点を当て、新しい機能を検証するために既存のテストを強化するシナリオを無視します。
実運用コードの変更に応じて、ジャスト・イン・タイムの自動テスト更新を可能にする新しいアプローチであるTESTUPDATERを提案する。
TestUPDATERは94.4%のコンパイルパス率と86.7%のテストパス率を達成し、それぞれ最先端のSYTERを15.9%と20.0%で上回っている。
論文 参考訳(メタデータ) (2025-09-29T08:08:22Z) - A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models [53.31664844941449]
ProActive Self-Refinement (PASR)は、大規模言語モデル(LLM)を改善する新しい方法である。
反応全体を再生する手法とは異なり、PASRはモデルの内部状態と進化コンテキストに基づいて、いつ、どのように精製するかを積極的に決定する。
PASRの有効性を評価するために,多種多様な10のタスクについて広範囲に実験を行った。
論文 参考訳(メタデータ) (2025-08-18T13:07:21Z) - PALM: Synergizing Program Analysis and LLMs to Enhance Rust Unit Test Coverage [14.702182387149547]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。
PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。
このアプローチを実装し、それを15のオープンソースのRustクラッドで評価します。
論文 参考訳(メタデータ) (2025-06-10T17:21:21Z) - Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。
累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文 参考訳(メタデータ) (2025-04-16T14:16:38Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。