論文の概要: Is the Cure Still Worse Than the Disease? Test Overfitting by LLMs in Automated Program Repair
- arxiv url: http://arxiv.org/abs/2511.16858v1
- Date: Thu, 20 Nov 2025 23:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.845248
- Title: Is the Cure Still Worse Than the Disease? Test Overfitting by LLMs in Automated Program Repair
- Title(参考訳): 病床はいまだに病床より悪いのか? 自動プログラム修復におけるLCMによるテストオーバーフィッティング
- Authors: Toufique Ahmed, Jatin Ganhotra, Avraham Shinnar, Martin Hirzel,
- Abstract要約: 自動プログラムの修復は、確認されたテストに合格するが、隠されたテストの保留セットで失敗する、修復されたコードの生成に影響を受けやすいことが示されている。
この問題はテストオーバーフィッティングと呼ばれ、大きな言語モデルが出現する前に特定され研究されている。
リポジトリレベルのSWE-benchタスクを使用して、テストオーバーフィッティングがまだ問題であるかどうかを実験的に検討する。
- 参考スコア(独自算出の注目度): 7.216607755908824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated program repair has been shown to be susceptible to generating repaired code that passes on seen tests but fails on a hold-out set of hidden tests. This problem, dubbed test overfitting, has been identified and studied before the rise of large language models. We experimentally study how much test overfitting is still a problem today, using repository-level SWE-bench tasks.
- Abstract(参考訳): 自動プログラムの修復は、確認されたテストに合格するが、隠されたテストの保留セットで失敗する、修復されたコードの生成に影響を受けやすいことが示されている。
この問題はテストオーバーフィッティングと呼ばれ、大きな言語モデルが出現する前に特定され研究されている。
リポジトリレベルのSWE-benchタスクを使用して、テストオーバーフィッティングがまだ問題であるかどうかを実験的に検討する。
関連論文リスト
- ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。
本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文 参考訳(メタデータ) (2024-05-21T13:19:10Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。