論文の概要: CodeSimpleQA: Scaling Factuality in Code Large Language Models
- arxiv url: http://arxiv.org/abs/2512.19424v1
- Date: Mon, 22 Dec 2025 14:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.785984
- Title: CodeSimpleQA: Scaling Factuality in Code Large Language Models
- Title(参考訳): CodeSimpleQA: コード大言語モデルにおけるファクチュアリティのスケーリング
- Authors: Jian Yang, Wei Zhang, Yizhi Li, Shawn Guo, Haowen Wang, Aishan Liu, Ge Zhang, Zili Wang, Zhoujun Li, Xianglong Liu, Weifeng Lv,
- Abstract要約: 本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。
また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
- 参考スコア(独自算出の注目度): 55.705748501461294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant strides in code generation, achieving impressive capabilities in synthesizing code snippets from natural language instructions. However, a critical challenge remains in ensuring LLMs generate factually accurate responses about programming concepts, technical implementations, etc. Most previous code-related benchmarks focus on code execution correctness, overlooking the factual accuracy of programming knowledge. To address this gap, we present CodeSimpleQA, a comprehensive bilingual benchmark designed to evaluate the factual accuracy of code LLMs in answering code-related questions, which contains carefully curated question-answer pairs in both English and Chinese, covering diverse programming languages and major computer science domains. Further, we create CodeSimpleQA-Instruct, a large-scale instruction corpus with 66M samples, and develop a post-training framework combining supervised fine-tuning and reinforcement learning. Our comprehensive evaluation of diverse LLMs reveals that even frontier LLMs struggle with code factuality. Our proposed framework demonstrates substantial improvements over the base model, underscoring the critical importance of factuality-aware alignment in developing reliable code LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成において大きな進歩を遂げており、自然言語命令からコードスニペットを合成する優れた機能を実現している。
しかし、LLMがプログラミングの概念や技術的な実装などについて、現実的に正確な応答を確実にする上で、重要な課題が残っている。
以前のコード関連ベンチマークのほとんどは、プログラミング知識の事実的正確さを見越して、コード実行の正確さに重点を置いていた。
このギャップに対処するために、コード関連質問に対するLLMの事実的正確性を評価するために設計された包括的なバイリンガル・ベンチマークであるCodeSimpleQAを提案する。
さらに,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
多様なLCMの包括的評価は、フロンティアLSMでさえコード事実性に苦慮していることを示している。
提案フレームワークは,信頼性の高いLLMを開発する上で,現実性を考慮したアライメントの重要性を強調し,ベースモデルよりも大幅に改善されていることを示す。
関連論文リスト
- Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code? [4.893345190925178]
本研究では,LLM生成コードと人手書きコードの内部品質特性を比較した。
我々の分析によると、LLM生成コードにはバグが少なく、全体的な修正に労力がかかりません。
論文 参考訳(メタデータ) (2025-08-01T15:17:34Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding & Reasoning Capabilities of CodeLLMs [9.649864680130781]
CodeMMLUは、Code Large Language Modelsにおけるソフトウェアとコード理解の深さを評価するために設計されたベンチマークである。
コード分析、欠陥検出、ソフトウェアエンジニアリングの原則など、さまざまな領域にまたがる2万近い質問が含まれている。
評価の結果,最先端モデルでさえCodeMMLUと競合することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T20:04:02Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。