論文の概要: Multicalibration for LLM-based Code Generation
- arxiv url: http://arxiv.org/abs/2512.08810v1
- Date: Tue, 09 Dec 2025 17:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.057348
- Title: Multicalibration for LLM-based Code Generation
- Title(参考訳): LLMに基づくコード生成のためのマルチキャリブレーション
- Authors: Viola Campos, Robin Kuschnereit, Adrian Ulges,
- Abstract要約: マルチキャリブレーションは、未校正トークン確率とベースライン校正の両方に対して、明確な改善をもたらす可能性がある。
将来のコードLLMキャリブレーション研究のために、データセット(コード生成、可能性、正当性ラベルで構成される)を利用可能にしています。
- 参考スコア(独自算出の注目度): 0.3568466510804538
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As AI-based code generation becomes widespread, researchers are investigating the calibration of code LLMs - ensuring their confidence scores faithfully represent the true likelihood of code correctness. To do so, we investigate multicalibration, which can capture additional factors about a coding problem, such as complexity, code length, or programming language used. We study four multicalibration approaches on three function synthesis benchmarks, using latest-generation code LLMs (Qwen3 Coder, GPT-OSS, DeepSeek-R1-Distill). Our results demonstrate that multicalibration can yield distinct improvements over both uncalibrated token likelihoods (+1.03 in skill score) and baseline calibrations (+0.37 in skill score). We study the influence of the aforementioned factors in ablations, and make our dataset (consisting of code generations, likelihoods, and correctness labels) available for future research on code LLM calibration.
- Abstract(参考訳): AIベースのコード生成が普及するにつれて、研究者はコードLLMの校正について調査している。
そこで本研究では,複雑性やコード長,使用するプログラミング言語など,コーディング問題に関する追加的要因を捉えるマルチキャリブレーションについて検討する。
我々は,3つの関数合成ベンチマークにおいて,次世代のコードLLM(Qwen3 Coder,GPT-OSS,DeepSeek-R1-Distill)を用いた4つの多重校正手法について検討した。
以上の結果から,マルチキャリブレーションは,未校正トークンの可能性(スキルスコア+1.03)とベースライン校正(スキルスコア+0.37)の両方に対して,明確な改善をもたらす可能性が示唆された。
LLM校正のためのデータセット(コード生成, 可能性, 正当性ラベルの構成)について, 上記の要素の影響について検討した。
関連論文リスト
- An Empirical Study of LLM-Based Code Clone Detection [4.393136571408381]
大規模言語モデル(LLM)は、異なるデータセット間で同等のパフォーマンスを実現することができることを示す。
ほとんどのモデルは高い応答一貫性を達成し、90%以上の判断は5つの提案すべてで一貫していた。
論文 参考訳(メタデータ) (2025-11-03T03:00:42Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。
提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。
実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文 参考訳(メタデータ) (2025-05-29T19:06:14Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - Fixing Function-Level Code Generation Errors for Foundation Large Language Models [6.137340149146578]
生成エラーに関する実証的研究を行い、その原因の分析を行い、19種類のエラー原因を導出する。
私たちの経験的分析では、これらの3つの原因が直接修正可能であることが示されています。
本稿では,この3種類のエラーを3段階のプロセスで処理するLlmFix法を提案する。
論文 参考訳(メタデータ) (2024-09-01T09:40:15Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。