論文の概要: RM -RF: Reward Model for Run-Free Unit Test Evaluation
- arxiv url: http://arxiv.org/abs/2601.13097v1
- Date: Mon, 19 Jan 2026 14:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.927101
- Title: RM -RF: Reward Model for Run-Free Unit Test Evaluation
- Title(参考訳): RM-RF:ランフリー単体テスト評価のためのリワードモデル
- Authors: Elena Bruches, Daniil Grebenkin, Mikhail Klementev, Vadim Alperovich, Roman Derunets, Dari Baturova, Georgy Mkrtchyan, Oleg Sedukhin, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev,
- Abstract要約: RM-RFは自動生成単体テストの実行不要評価のための軽量報酬モデルである。
ソースとテストコードだけで、それは3つの実行由来の信号を予測する。
従来のコンパイル/実行機器と比較して、RM-RFはレイテンシとインフラコストを大幅に削減する。
- 参考スコア(独自算出の注目度): 1.4341136505032424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RM-RF, a lightweight reward model for run-free evaluation of automatically generated unit tests. Instead of repeatedly compiling and executing candidate tests, RM-RF predicts - from source and test code alone - three execution-derived signals: (1) whether the augmented test suite compiles and runs successfully, (2) whether the generated test cases increase code coverage, and (3) whether the generated test cases improve the mutation kill rate. To train and evaluate RM-RF we assemble a multilingual dataset (Java, Python, Go) of focal files, test files, and candidate test additions labeled by an execution-based pipeline, and we release an associated dataset and methodology for comparative evaluation. We tested multiple model families and tuning regimes (zero-shot, full fine-tuning, and PEFT via LoRA), achieving an average F1 of 0.69 across the three targets. Compared to conventional compile-and-run instruments, RM-RF provides substantially lower latency and infrastructure cost while delivering competitive predictive fidelity, enabling fast, scalable feedback for large-scale test generation and RL-based code optimization.
- Abstract(参考訳): 本稿では,自動生成単体テストの実行自由度評価のための軽量報酬モデルRM-RFを提案する。
RM-RFは、候補テストを繰り返しコンパイルして実行するのではなく、ソースコードとテストコードのみから、(1)拡張テストスイートがコンパイルして正常に実行されるかどうか、(2)生成されたテストケースがコードカバレッジを増加させるかどうか、(3)生成されたテストケースが突然変異キル率を改善するかどうかの3つの実行元信号を予測する。
RM-RFをトレーニングし評価するために、焦点ファイル、テストファイル、および実行ベースパイプラインでラベル付けされた候補テスト追加の多言語データセット(Java、Python、Go)を組み立て、比較評価のための関連するデータセットと方法論をリリースする。
複数のモデルファミリとチューニングシステマ(ゼロショット、フル微調整、LORA経由PEFT)をテストし、3つのターゲットの平均F1を0.69で達成した。
従来のコンパイル/実行方式と比較して、RM-RFは、競争力のある予測忠実さを提供しながら、レイテンシとインフラコストを大幅に低減し、大規模なテスト生成とRLベースのコード最適化のための高速でスケーラブルなフィードバックを可能にする。
関連論文リスト
- The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。
本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文 参考訳(メタデータ) (2026-01-05T18:20:14Z) - QiMeng-CodeV-R1: Reasoning-Enhanced Verilog Generation [51.393569044134445]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。
しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。
本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文 参考訳(メタデータ) (2025-05-30T03:51:06Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - TestForge: Feedback-Driven, Agentic Test Suite Generation [7.288137795439405]
TestForgeは、現実世界のコードのための高品質なテストスイートをコスト効率よく生成するように設計されたエージェントユニットテスティングフレームワークである。
TestForgeは、最先端の検索ベースの技術と比較して、より自然で理解しやすいテストを生成する。
論文 参考訳(メタデータ) (2025-03-18T20:21:44Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。