論文の概要: Disproving Program Equivalence with LLMs
- arxiv url: http://arxiv.org/abs/2502.18473v1
- Date: Wed, 05 Feb 2025 12:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 03:56:18.009482
- Title: Disproving Program Equivalence with LLMs
- Title(参考訳): LLMによるプログラム等価性の検証
- Authors: Miltiadis Allamanis, Pengcheng Yin,
- Abstract要約: ProbeGenは、2つ以上の実行可能なコードと、その等価性に対する反例を検索するホワイトボックスメソッドである。
ProbeGenは、ベンチマークによる単体テストにより、基礎的真理と等価であると考えられるサンプルの18%を反証することを示した。
ProbeGenを使うことで、意味的な自己整合性のためにLLMサンプルをセマンティックにクラスタリングし、pass@1を10%改善できます。
- 参考スコア(独自算出の注目度): 22.047880121762013
- License:
- Abstract: To evaluate large language models (LLMs) for code, research has used manually created unit test-based benchmarks. However, these tests are often inadequate, missing corner cases and other implementation-specific oddities. This work introduces ProbeGen, a whitebox method that takes two or more executable pieces of code and searches for counterexamples to their equivalence. Comparing code semantics requires a deep understanding of code. We demonstrate that LLMs with execution feedback perform well at this task. In a common code synthesis benchmark, ProbeGen disproves 18% of samples considered equivalent to the ground truth by the benchmark-provided unit tests. Additionally, using ProbeGen, we can semantically cluster LLM samples for semantic self-consistency, improving pass@1 by 10% by unifying syntactically distinct but semantically similar samples.
- Abstract(参考訳): コードのための大きな言語モデル(LLM)を評価するために、研究は手動で作成したユニットテストベースのベンチマークを使用している。
しかし、これらのテストは、しばしば不十分であり、コーナーケースの欠如やその他の実装固有の奇異性がある。
ProbeGenは、2つ以上の実行可能なコードと、その等価性に対する反例を検索するホワイトボックスメソッドである。
コードセマンティクスを比較するには、コードの深い理解が必要です。
本研究では,実行フィードバックを持つLLMが,このタスクで良好に動作できることを実証する。
一般的なコード合成ベンチマークでは、ProbeGenはベンチマークで提供された単体テストによって、基礎的な真理と同等と見なされるサンプルの18%を否定する。
さらに、ProbeGenを使うことで、セマンティックな自己整合性のためにLLMサンプルをセマンティックにクラスタリングし、構文的に異なるがセマンティックに類似したサンプルを統一することで、pass@1を10%改善できます。
関連論文リスト
- Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。
また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。
その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文 参考訳(メタデータ) (2024-12-06T17:40:38Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Quasi-random Multi-Sample Inference for Large Language Models [1.647759094903376]
大規模言語モデル(LLM)は、しばしばマルチサンプルデコード戦略を備えている。
ビームサーチやサンプリングベース技術のような従来のテキスト生成手法には、顕著な制限がある。
本研究では,算術的サンプリングの可能性について検討し,祖先的サンプリングと対比する。
論文 参考訳(メタデータ) (2024-11-09T18:55:04Z) - A test-free semantic mistakes localization framework in Neural Code Translation [32.5036379897325]
本稿では,Large Language Model(LLM)に基づく静的解析フレームワークであるEISPを紹介する。
このフレームワークはソースコードと翻訳されたコード間の意味マッピングを生成する。
EISPは、AIチェーンを通じて、各サブコードのフラグメントをきめ細かい知識ヒントで接続する。
論文 参考訳(メタデータ) (2024-10-30T08:53:33Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。
以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。
本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。
以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-20T10:27:01Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。