論文の概要: Estimating Correctness Without Oracles in LLM-Based Code Generation
- arxiv url: http://arxiv.org/abs/2507.00057v1
- Date: Thu, 26 Jun 2025 22:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.229959
- Title: Estimating Correctness Without Oracles in LLM-Based Code Generation
- Title(参考訳): LLMに基づくコード生成におけるオラクル無しの正確性の推定
- Authors: Thomas Valentin, Ardi Madadi, Gaetano Sapia, Marcel Böhme,
- Abstract要約: オラクルが存在しない場合に効率的に推定できる不整合(incoherence)と呼ばれる不整合の尺度を提案する。
平均的なコード生成タスクでは,不正なプログラムの約3分の2を自動的に識別することができる。
- 参考スコア(独自算出の注目度): 10.204622104311014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating code from natural language specifications is one of the most successful applications of Large Language Models (LLMs). Yet, they hallucinate: LLMs produce outputs that may be grammatically correct but are factually incorrect. Without an existing, correct implementation (i.e., an oracle), can we quantify how likely the generated program is correct? In this paper, we propose a measure of incorrectness, called incoherence, that can be estimated efficiently in the absence of an oracle and provides a lower bound on the error, i.e., the probability that the LLM-generated program for that specification is incorrect. Our experiments demonstrate an extraordinary effectiveness. For the average code generation task, our incoherence-based methodology can automatically identify about two-thirds of incorrect programs without reports of false positives. In fact, an oracle-based evaluation of LLMs can be reliably replaced by an incoherence-based evaluation. In particular, we find a very strong agreement between the ranking of LLMs by the number of programs deemed correct via an oracle (pass@1) and the ranking of LLMs by the number of programs deemed correct via our incoherence.
- Abstract(参考訳): 自然言語仕様からコードを生成することは、LLM(Large Language Models)の最も成功した応用の1つである。
LLMは文法的に正しいが実際には正しくない出力を生成する。
既存の正しい実装(すなわちオラクル)がなければ、生成したプログラムが正しい確率を定量化できますか?
本稿では,不整合性(incoherence)と呼ばれる不整合性(incoherence)という不整合性(incorrectness)の尺度を提案する。
我々の実験は異常な効果を示した。
平均的なコード生成タスクでは,偽陽性を報告せずに,不正プログラムの約3分の2を自動的に識別することができる。
実際、LLMのオラクルに基づく評価は、不整合に基づく評価に確実に置き換えることができる。
特に、オラクル(pass@1)で正しいと判断されるプログラム数によるLSMのランキングと、不整合で正しいと判断されるプログラム数によるLSMのランキングとの間には、非常に強い一致がある。
関連論文リスト
- RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。
本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文 参考訳(メタデータ) (2024-10-21T06:11:38Z) - Showing LLM-Generated Code Selectively Based on Confidence of LLMs [44.23673533981599]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しているが、誤ったプログラムを生成する可能性がある。
これらの誤ったプログラムを開発者に示すことは、開発者のエネルギーを無駄にし、セキュリティリスクを導入します。
我々は,新しいLLMベースのコード生成手法であるHonestCoderを提案する。
論文 参考訳(メタデータ) (2024-10-04T08:51:31Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - AI-Oracle Machines for Intelligent Computing [2.6839986755082728]
インテリジェントコンピューティングのためのAI-オラクルマシンの概念を導入し、その可能性を示すいくつかのアプリケーションを概説する。
我々は、AI-オラクルマシンの実装を合理化するための包括的なプラットフォームの開発を提唱する。
論文 参考訳(メタデータ) (2024-06-18T02:25:33Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。