論文の概要: Functional Entropy: Predicting Functional Correctness in LLM-Generated Code with Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2605.28500v1
- Date: Wed, 27 May 2026 14:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.095083
- Title: Functional Entropy: Predicting Functional Correctness in LLM-Generated Code with Uncertainty Quantification
- Title(参考訳): 関数エントロピー:不確実性量子化を用いたLLM生成符号の関数的正確性予測
- Authors: Dylan Bouchard, Mohit Singh Chauhan, Zeya Ahmad, Ho-Kyeong Ra,
- Abstract要約: 不確かさ定量化(UQ)手法は、自然言語生成における幻覚を検出するための有望なアプローチとして登場した。
3つのプログラミング言語と1700以上の問題にまたがって、UQ技術がどのようにコード生成に移行するかを体系的に評価した。
我々は,NLIに基づく意味的同値をLLMに基づく関数的同値評価に置き換えるコード固有手法のファミリーである関数的同値法を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have shown impressive capabilities in code generation, yet they often produce functionally incorrect code. Uncertainty quantification (UQ) methods have emerged as a promising approach for detecting hallucinations in natural language generation, but their effectiveness for code generation tasks remains underexplored. We systematically evaluate how UQ techniques transfer to code generation across three programming languages, five LLMs, and over 1,700 problems. We find that some token-probability-based methods generalize effectively without modification, while sampling-based methods relying on natural language inference (NLI) fail because NLI models cannot distinguish functionally different code, causing most responses to collapse into a single semantic cluster. To address this, we introduce functional equivalence methods, a family of code-specific methods that replace NLI-based semantic equivalence with an LLM-based functional equivalence assessment, including functional entropy, a code-specific analog of semantic entropy. Functional equivalence methods achieve top AUROC in 11 out of 15 model-benchmark combinations and the best calibration across most settings, consistently outperforming both NLI-based counterparts and all other methods evaluated.
- Abstract(参考訳): 大規模な言語モデルは、コード生成において印象的な機能を示しているが、しばしば機能的に誤ったコードを生成する。
不確実性定量化(UQ)手法は、自然言語生成における幻覚を検出するための有望なアプローチとして登場したが、コード生成タスクに対するその有効性は未解明のままである。
我々は,UQ手法が3つのプログラミング言語,5つのLLM,1,700以上の問題でコード生成にどう移行するかを体系的に評価した。
NLIモデルは機能的に異なるコードを区別できないため,ほとんどの応答は単一セマンティッククラスタに分解される。
そこで本研究では,NLIに基づく意味論的同値をLLMに基づく機能的同値評価に置き換える,機能的同値法を提案する。
関数同値法は15のモデルベンチマークの組み合わせのうち11のAUROCでトップとなり、ほとんどの設定で最高のキャリブレーションが得られる。
関連論文リスト
- ShortCoder: Knowledge-Augmented Syntax Optimization for Token-Efficient Code Generation [27.9837392531619]
コード生成効率を最適化する知識注入フレームワークであるShortCoderを提案する。
ShortCoderはHumanEvalの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-14T18:57:31Z) - Dynamic Stability of LLM-Generated Code [6.120340803716395]
コード生成のためのLLMの現在の評価は、関数的に正しい解がアルゴリズムの複雑さにおいて著しく異なるという事実を見落としている。
本稿では,生成コードの動的安定性を評価するためのフレームワークを提案する。
コード生成における安定性を意識した目標と、堅牢で現実的な評価のためのテストケースを備えた新しいベンチマークが求められた。
論文 参考訳(メタデータ) (2025-11-07T09:58:06Z) - HyClone: Bridging LLM Understanding and Dynamic Execution for Semantic Code Clone Detection [3.2167919219391474]
コードクローン検出(Code clone detection)は、ソフトウェア工学において重要なタスクであり、ソフトウェアシステム内の重複や類似のコードフラグメントを識別することを目的としている。
大規模言語モデル(LLM)の最近の進歩は、コードセマンティクスの理解において有望であることを示している。
LLMに基づくスクリーニングと,Pythonプログラムのセマンティッククローンを検出するための実行ベースの検証を組み合わせた,新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T13:11:56Z) - Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文 参考訳(メタデータ) (2025-02-20T10:25:13Z) - The First Prompt Counts the Most! An Evaluation of Large Language Models on Iterative Example-Based Code Generation [33.77058239791512]
本稿では,Large Language Models (LLMs) を用いたサンプルベースコード生成の総合的研究について述べる。
我々は、反復評価フレームワークを採用し、サンプルベースのコード生成の目的を2つの連続的なサブオブジェクトとして定式化する。
我々は、172の多様な目標関数のベンチマークを用いて、最先端のLLMを6つ評価した。
論文 参考訳(メタデータ) (2024-11-11T08:05:37Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。