論文の概要: DeCon: Detecting Incorrect Assertions via Postconditions Generated by a Large Language Model
- arxiv url: http://arxiv.org/abs/2501.02901v1
- Date: Mon, 06 Jan 2025 10:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 16:36:52.098192
- Title: DeCon: Detecting Incorrect Assertions via Postconditions Generated by a Large Language Model
- Title(参考訳): DeCon: 大規模言語モデルで生成された後条件による誤挿入の検出
- Authors: Hao Yu, Tianyu Chen, Jiaming Huang, Zongyang Li, Dezhi Ran, Xinyu Wang, Ying Li, Assaf Marron, David Harel, Yuan Xie, Tao Xie,
- Abstract要約: 対象問題に対するLLM生成後条件による誤認識を効果的に検出する,DeCon という新しい手法を提案する。
デコンは64%以上(それぞれGPT-3.5とGPT-4で検出された63%と65.5%)の誤ったアサーションを4つの最先端LCMで検出できる。
- 参考スコア(独自算出の注目度): 22.38753408614465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, given the docstring for the target problem and the target function signature, large language models (LLMs) have been used not only to generate source code, but also to generate test cases, consisting of test inputs and assertions (e.g., in the form of checking an actual output against the expected output). However, as shown by our empirical study on assertions generated by four LLMs for the HumanEval benchmark, over 62% of the generated assertions are incorrect (i.e., failed on the ground-truth problem solution). To detect incorrect assertions (given the docstring and the target function signature along with a sample of example inputs and outputs), in this paper, we propose a new approach named DeCon to effectively detect incorrect assertions via LLM-generated postconditions for the target problem (a postcondition is a predicate that must always be true just after the execution of the ground-truth problem solution). Our approach requires a small set of I/O examples (i.e., a sample of example inputs and outputs) for the target problem (e.g., the I/O examples included in the docstring for a target problem in HumanEval). We use the given I/O examples to filter out those LLM-generated postconditions that are violated by at least one given I/O example. We then use the remaining postconditions to detect incorrect assertions as those assertions that violate at least one remaining postcondition. Experimental results show that DeCon can detect averagely more than 64% (63% and 65.5% detected by GPT-3.5 and GPT-4, respectively) incorrect assertions generated by four state-of-the-art LLMs, and DeCon can also improve the effectiveness of these LLMs in code generation by 4% in terms of Pass@1. In addition, although DeCon might filter out correct assertions, the fault-finding ability of the remaining correct assertions decreases only slightly.
- Abstract(参考訳): 近年,対象問題に対するドクストリングや対象関数シグネチャを考慮し,ソースコード生成だけでなく,テスト入力とアサーション(例えば,期待出力に対して実際の出力をチェックする形式)からなるテストケースを生成するために,大規模言語モデル (LLM) が用いられている。
しかし、HumanEvalベンチマークの4つのLCMが生成するアサーションに関する実証的研究で示されているように、生成されたアサーションの62%は誤りである(すなわち、根本的真理問題解では失敗する)。
本稿では,不正確なアサーション(サンプル入力と出力のサンプルとともにドクストリングとターゲット関数シグネチャを付加する)を検出するために,本論文では,目標問題に対するLLM生成後条件を通した誤りアサーションを効果的に検出するDeConという手法を提案する。
提案手法では,対象問題(例えば,HumanEvalのターゲット問題に対するドクストリングに含まれるI/O例)に対して,少数のI/O例(例入力と出力のサンプル)を必要とする。
我々は、与えられたI/O例を用いて、与えられたI/O例の少なくとも1つに違反するLSM生成後の条件をフィルタリングする。
次に、残りの条件を用いて、少なくとも1つの残りの条件に違反するアサーションとして、誤ったアサーションを検出する。
実験の結果、DeConは平均64%以上(GPT-3.5とGPT-4でそれぞれ63%と65.5%)の誤ったアサーションを4つの最先端LCMで検出でき、またコード生成におけるこれらのLCMの有効性をPass@1で4%向上できることがわかった。
さらに、DeConは正しいアサーションをフィルタリングするかもしれないが、残りの正しいアサーションのフォールトフィニング能力はわずかに低下する。
関連論文リスト
- Synthesizing File-Level Data for Unit Test Generation with Chain-of-Thoughts via Self-Debugging [40.29934051200609]
本稿では,高品質なUTトレーニングを実現するための新しいデータ蒸留手法を提案する。
このパイプラインをオープンソースプロジェクトの大規模なコーパスに適用します。
実験により, 微調整モデルにより, UT生成効率が高いことを示す。
論文 参考訳(メタデータ) (2026-02-03T06:52:54Z) - Assertion-Aware Test Code Summarization with Large Language Models [0.0]
単体テストは、テスト意図を伝える簡潔な要約を欠くことが多い。
本稿では,開発者による要約と組み合わせた実世界のJavaテストケース91のベンチマークを示す。
論文 参考訳(メタデータ) (2025-11-09T04:58:32Z) - Validating Formal Specifications with LLM-generated Test Cases [1.2031796234206136]
本稿では,事前学習された大規模言語モデル(LLM)を用いて,自然言語要求からテストケースを生成する実験結果について報告する。
評価は最先端の GPT-5 モデルに焦点をあてるが,他のクローズドおよびオープンソース LLM の結果も報告する。
論文 参考訳(メタデータ) (2025-10-27T14:02:20Z) - Clotho: Measuring Task-Specific Pre-Generation Test Adequacy for LLM Inputs [6.862079218077768]
特定のタスクで大規模言語モデルをテストするのは難しくてコストがかかります。
重要な課題は、タスクの要求を反映した方法で入力精度を評価することである。
タスク固有のプレジェネレーションアプライバシ尺度であるCLOTHOを導入する。
論文 参考訳(メタデータ) (2025-09-22T02:34:09Z) - Towards Automated Error Discovery: A Study in Conversational AI [48.735443116662026]
本稿では,会話型AIにおけるエラーの検出と定義のためのフレームワークであるAutomated Error Discoveryを紹介する。
また,その実装に対するエンコーダに基づくアプローチとして,SEEED(Soft Clustering Extended-Based Error Detection)を提案する。
論文 参考訳(メタデータ) (2025-09-13T14:53:22Z) - YATE: The Role of Test Repair in LLM-Based Unit Test Generation [22.67442101368384]
本稿では,ルールベースの静的解析と再試行を組み合わせることで,これらの不正なテストのいくつかを修復する手法を提案する。
このシンプルなアプローチであるYATEを、6つのオープンソースプロジェクトのセットで評価する。
YATEは22%のラインカバレッジ、20%のブランチカバレッジ、20%のミュータントを同等のコストで削減する。
論文 参考訳(メタデータ) (2025-07-24T11:32:31Z) - Teaching Your Models to Understand Code via Focal Preference Alignment [70.71693365502212]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - VALTEST: Automated Validation of Language Model Generated Test Cases [0.7059472280274008]
大規模言語モデル(LLM)は、ソフトウェアテストの自動化、特に単体テストケースの生成において大きな可能性を証明している。
本稿では,トークンの確率を利用してLLMが生成したテストケースを自動的に検証する新しいフレームワークVALTESTを紹介する。
論文 参考訳(メタデータ) (2024-11-13T00:07:32Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Rethinking the Influence of Source Code on Test Case Generation [22.168699378889148]
大規模言語モデル(LLM)は、コンテキストとして提供されるテスト対象のソースコードでテスト生成を支援するために広く応用されている。
テスト中のソースコードが間違っていれば、LLMはテストの生成時に誤用されるだろうか?
評価結果から, 誤りコードは, 正しい, 高いカバレッジ, バグ修正テストを生成する際に, LLMを著しく誤解させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-14T15:17:34Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - ReAssert: Deep Learning for Assert Generation [3.8174671362014956]
本稿では、JUnitテストアサーションの自動生成のためのアプローチであるRE-ASSERTを提案する。
これは、学習に正確なコード・トゥ・テストのトレーサビリティを使用して、プロジェクトを個別にターゲットすることで達成される。
我々はまた、最先端のディープラーニングモデルであるReformerと、ReAssertと既存のアプローチであるATLASを評価するための以前の2つのモデルも利用しています。
論文 参考訳(メタデータ) (2020-11-19T11:55:59Z) - Model Assertions for Monitoring and Improving ML Models [26.90089824436192]
本稿では,MLモデルの監視と改善を行う手段として,プログラムアサーションの古典的利用に適応した新しい抽象化,モデルアサーションを提案する。
モデルアサーションは、モデルがいつエラーが発生したかを示す入力と出力の任意の関数である。
本稿では,ランタイム監視,ラベルの検証,MLモデルの継続的な改善など,MLシステムデプロイメントのすべての段階におけるモデルアサーションの使用方法を提案する。
論文 参考訳(メタデータ) (2020-03-03T17:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。