Fugu-MT 論文翻訳(概要): Estimating Correctness Without Oracles in LLM-Based Code Generation

論文の概要: Estimating Correctness Without Oracles in LLM-Based Code Generation

arxiv url: http://arxiv.org/abs/2507.00057v1
Date: Thu, 26 Jun 2025 22:00:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:58.229959
Title: Estimating Correctness Without Oracles in LLM-Based Code Generation
Title（参考訳）: LLMに基づくコード生成におけるオラクル無しの正確性の推定
Authors: Thomas Valentin, Ardi Madadi, Gaetano Sapia, Marcel Böhme,
Abstract要約: オラクルが存在しない場合に効率的に推定できる不整合(incoherence)と呼ばれる不整合の尺度を提案する。平均的なコード生成タスクでは,不正なプログラムの約3分の2を自動的に識別することができる。
参考スコア（独自算出の注目度）: 10.204622104311014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating code from natural language specifications is one of the most successful applications of Large Language Models (LLMs). Yet, they hallucinate: LLMs produce outputs that may be grammatically correct but are factually incorrect. Without an existing, correct implementation (i.e., an oracle), can we quantify how likely the generated program is correct? In this paper, we propose a measure of incorrectness, called incoherence, that can be estimated efficiently in the absence of an oracle and provides a lower bound on the error, i.e., the probability that the LLM-generated program for that specification is incorrect. Our experiments demonstrate an extraordinary effectiveness. For the average code generation task, our incoherence-based methodology can automatically identify about two-thirds of incorrect programs without reports of false positives. In fact, an oracle-based evaluation of LLMs can be reliably replaced by an incoherence-based evaluation. In particular, we find a very strong agreement between the ranking of LLMs by the number of programs deemed correct via an oracle (pass@1) and the ranking of LLMs by the number of programs deemed correct via our incoherence.
Abstract（参考訳）: 自然言語仕様からコードを生成することは、LLM(Large Language Models)の最も成功した応用の1つである。 LLMは文法的に正しいが実際には正しくない出力を生成する。既存の正しい実装(すなわちオラクル)がなければ、生成したプログラムが正しい確率を定量化できますか? 本稿では,不整合性(incoherence)と呼ばれる不整合性(incoherence)という不整合性(incorrectness)の尺度を提案する。我々の実験は異常な効果を示した。平均的なコード生成タスクでは,偽陽性を報告せずに,不正プログラムの約3分の2を自動的に識別することができる。実際、LLMのオラクルに基づく評価は、不整合に基づく評価に確実に置き換えることができる。特に、オラクル(pass@1)で正しいと判断されるプログラム数によるLSMのランキングと、不整合で正しいと判断されるプログラム数によるLSMのランキングとの間には、非常に強い一致がある。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文参考訳（メタデータ） (2024-10-21T06:11:38Z)
Showing LLM-Generated Code Selectively Based on Confidence of LLMs [44.23673533981599]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しているが、誤ったプログラムを生成する可能性がある。これらの誤ったプログラムを開発者に示すことは、開発者のエネルギーを無駄にし、セキュリティリスクを導入します。我々は,新しいLLMベースのコード生成手法であるHonestCoderを提案する。
論文参考訳（メタデータ） (2024-10-04T08:51:31Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
AI-Oracle Machines for Intelligent Computing [2.6839986755082728]
インテリジェントコンピューティングのためのAI-オラクルマシンの概念を導入し、その可能性を示すいくつかのアプリケーションを概説する。我々は、AI-オラクルマシンの実装を合理化するための包括的なプラットフォームの開発を提唱する。
論文参考訳（メタデータ） (2024-06-18T02:25:33Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文参考訳（メタデータ） (2023-10-31T17:52:22Z)
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文参考訳（メタデータ） (2023-05-24T00:10:15Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。