論文の概要: ReCatcher: Towards LLMs Regression Testing for Code Generation
- arxiv url: http://arxiv.org/abs/2507.19390v1
- Date: Fri, 25 Jul 2025 15:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.023905
- Title: ReCatcher: Towards LLMs Regression Testing for Code Generation
- Title(参考訳): ReCatcher: コード生成のためのLLMの回帰テストを目指す
- Authors: Altaf Allah Abbassi, Leuson Da Silva, Amin Nikanjam, Foutse Khomh,
- Abstract要約: ReCatcherはPythonコード生成のための回帰テストフレームワークである。
ReCatcherを適用して、3つの更新シナリオ、微調整、マージ、モデルリリースのレグレッションを評価します。
Llama2のような汎用モデルとマージすると、精度が最大18%向上する。
- 参考スコア(独自算出の注目度): 11.185300073739098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) for code generation evolve rapidly through fine-tuning, merging, or new model releases. However, such updates can introduce regressions, not only in correctness but also in code quality and performance. To address this, we present ReCatcher, a regression testing framework for Python code generation. ReCatcher systematically compares two LLMs, typically a current model and a candidate update, across three dimensions: logical correctness, static code quality, and execution performance. We apply ReCatcher to assess regressions across three update scenarios, fine-tuning, merging, and model release, using CodeLlama, DeepSeek-Coder, and GPT-4o. Our evaluation shows that fine-tuning with cross-language datasets increases syntax errors by up to 12%. Merging with general-purpose models like Llama2 leads to regressions in correctness by up to 18%. GPT-4o introduces regressions of up to 50% in handling missing imports compared to GPT-3.5-turbo, while GPT-4o-mini suffers up to 80% performance degradation in execution time versus GPT-4o. Overall, logical correctness, performance, and error handling (e.g., syntax errors and missing imports) are the most regression-prone areas. Comparing ReCatcher with baseline solutions, it presents better and consistent accuracy across logical and performance aspects. ReCatcher highlights the importance of systematic regression evaluation before adopting new models, while assisting researchers and practitioners in making more informed update decisions.
- Abstract(参考訳): コード生成のための大規模言語モデル(LLM)は、微調整、マージ、新しいモデルリリースによって急速に進化する。
しかし、このような更新は、正確性だけでなく、コード品質やパフォーマンスにもレグレッションをもたらす可能性がある。
これを解決するために,Pythonコード生成のための回帰テストフレームワークであるReCatcherを紹介する。
ReCatcherは、論理的正確性、静的コード品質、実行パフォーマンスの3つの側面で、2つのLLM(典型的には現在のモデルと候補更新)を体系的に比較する。
CodeLlama、DeepSeek-Coder、GPT-4oを使って、細調整、マージ、モデルリリースという3つのアップデートシナリオのレグレッションを評価するためにReCatcherを適用します。
評価の結果,言語間データセットによる微調整により構文エラーが最大12%増加することがわかった。
Llama2のような汎用モデルとマージすると、精度が最大18%向上する。
GPT-4oはGPT-3.5-turboと比較して最大50%のレグレッションを導入し、GPT-4o-miniはGPT-4oと比較して実行時間で最大80%パフォーマンス劣化する。
全体としては、論理的正当性、パフォーマンス、エラー処理(例えば、構文エラーやインポートの欠如など)が最も回帰しやすい分野です。
ReCatcherをベースラインソリューションと比較すると、論理的およびパフォーマンス的な側面において、より良い、一貫性のある精度を示す。
ReCatcherは、新しいモデルを採用する前に、体系的な回帰評価の重要性を強調し、研究者や実践者がより詳細な更新決定を行うのを支援する。
関連論文リスト
- Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets [0.0]
汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。
より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。
対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-02T12:31:43Z) - Sparse Regression for Machine Translation [0.0]
パラレルコーパスのソース特徴とターゲット特徴のマッピングを学習するためのトランスダクティブ回帰手法の有効性を示す。
我々はドイツ語から英語へ、スペイン語から英語へ翻訳する際の励みとなる結果を提示する。
論文 参考訳(メタデータ) (2024-06-27T18:43:51Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - Learning Label Encodings for Deep Regression [10.02230163797581]
深い回帰ネットワークは、与えられた入力に対して連続的な値を予測する問題の解決に広く利用されている。
回帰のためのラベル符号化の空間は大きい。
本稿では、ネットワーク全体とそのラベルエンコーディングのエンドツーエンドトレーニングのための正規化ラベル学習(RLEL)を提案する。
論文 参考訳(メタデータ) (2023-03-04T00:11:34Z) - Learning to Learn to Predict Performance Regressions in Production at
Meta [11.45540873578889]
この記事では、MetaでMLベースの回帰予測パイプラインを調査、デプロイした際の経験について説明します。
本研究は, 回帰変化に対する良性の不均衡が大きな特徴である, 性能予測問題の本質的な難しさを示すものである。
また,性能予測のためのTransformerベースのアーキテクチャの適用性についても疑問を呈する。
論文 参考訳(メタデータ) (2022-08-08T18:16:51Z) - Stochastic Gradient Descent without Full Data Shuffle [65.97105896033815]
CorgiPileは階層的なデータシャッフル戦略で、完全なデータシャッフルを回避すると同時に、完全なシャッフルを実行したかのようにSGDの収束率を同等に維持する。
以上の結果から,CorgiPileは深層学習モデルと一般化線形モデルの両方において,全シャッフルベースSGDと同等の収束率を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-12T20:04:31Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - RepPoints V2: Verification Meets Regression for Object Detection [65.120827759348]
本稿ではRepPointsのローカライズ予測に検証タスクを導入する。
RepPoints v2は、オリジナルのRepPointsよりも約2.0mAPの一貫性のある改善を提供する。
提案手法は、インスタンスセグメンテーションのようなアプリケーションと同様に、他のオブジェクト検出フレームワークをより高めることができることを示す。
論文 参考訳(メタデータ) (2020-07-16T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。