論文の概要: In-Context Learning as an Effective Estimator of Functional Correctness of LLM-Generated Code
- arxiv url: http://arxiv.org/abs/2507.05200v1
- Date: Mon, 07 Jul 2025 17:01:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.530435
- Title: In-Context Learning as an Effective Estimator of Functional Correctness of LLM-Generated Code
- Title(参考訳): LLM生成符号の関数的正確性の効果的な推定法としての文脈内学習
- Authors: Susmita Das, Madhusudan Ghosh, Priyanka Swami, Debasis Ganguly, Gul Calikli,
- Abstract要約: コード品質評価のためのテキスト内学習(ICL)手法を提案する。
トレーニングセットから,機能的正当性のサンプルを少数提供することにより,既存のQPPアプローチの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 8.40207342119367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When applying LLM-based code generation to software development projects that follow a feature-driven or rapid application development approach, it becomes necessary to estimate the functional correctness of the generated code in the absence of test cases. Just as a user selects a relevant document from a ranked list of retrieved ones, a software generation workflow requires a developer to choose (and potentially refine) a generated solution from a ranked list of alternative solutions, ordered by their posterior likelihoods. This implies that estimating the quality of a ranked list -- akin to estimating "relevance" for query performance prediction (QPP) in IR -- is also crucial for generative software development, where quality is defined in terms of "functional correctness". In this paper, we propose an in-context learning (ICL) based approach for code quality estimation. Our findings demonstrate that providing few-shot examples of functionally correct code from a training set enhances the performance of existing QPP approaches as well as a zero-shot-based approach for code quality estimation.
- Abstract(参考訳): LLMベースのコード生成を機能駆動もしくは迅速なアプリケーション開発アプローチに従うソフトウェア開発プロジェクトに適用する場合、テストケースがない場合に生成されたコードの機能的正しさを見積もる必要がある。
ユーザが検索したリストから関連するドキュメントを選択するのと同じように、ソフトウェア生成ワークフローでは、開発者は、後続の確率で順序付けされた代替ソリューションのリストから生成されたソリューションを選択する(そして潜在的に洗練する)必要がある。
これは、IRにおけるクエリパフォーマンス予測(QPP)の"関連性"を見積もることと同様に、ランクリストの品質を見積もることが、"機能的正確性"の観点から品質が定義される、生成ソフトウェア開発においても重要であることを意味します。
本稿では,コード品質評価のための文脈内学習(ICL)手法を提案する。
この結果から,トレーニングセットから機能的正当性のサンプルを少数提供することにより,既存のQPPアプローチの性能向上と,コード品質評価のためのゼロショットベースアプローチの実現が期待できる。
関連論文リスト
- CoQuIR: A Comprehensive Benchmark for Code Quality-Aware Information Retrieval [31.817325318218003]
CoQuIRは、品質を意識したコード検索を評価するために設計された、最初の大規模多言語ベンチマークである。
CoQuIRは、11のプログラミング言語で42,725のクエリと134,907のコードスニペットに対して、きめ細かい品質のアノテーションを提供する。
論文 参考訳(メタデータ) (2025-05-31T13:00:17Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Structure-Aware Corpus Construction and User-Perception-Aligned Metrics for Large-Language-Model Code Completion [5.771285831097908]
本稿では,コード補完タスクの2つの評価指標,-LCP と ROUGE-LCP を提案する。
また,構造保存および意味的順序付きコードグラフに基づくデータ処理手法を提案する。
論文 参考訳(メタデータ) (2025-05-19T13:09:32Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。