論文の概要: Evaluating and Achieving Controllable Code Completion in Code LLM
- arxiv url: http://arxiv.org/abs/2601.15879v1
- Date: Thu, 22 Jan 2026 11:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.58862
- Title: Evaluating and Achieving Controllable Code Completion in Code LLM
- Title(参考訳): コードLLMにおける制御可能なコード補完の評価と達成
- Authors: Jiajun Zhang, Zeyu Cui, Lei Zhang, Jian Yang, Jiaxi Yang, Qiang Liu, Zilei Wang, Binyuan Hui, Liang Wang, Junyang Lin,
- Abstract要約: 命令誘導型コード補完ベンチマークである制御可能コード補完ベンチマーク(C3-Bench)を提案する。
コード補完作業中に,オープンソースのプロプライエタリモデルと高度なプロプライエタリモデルの間に,命令追従機能にかなりのギャップがあることを明らかにする。
結果として得られたQwen2.5-Coder-C3は、C3-Bench上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 89.64782747840225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code completion has become a central task, gaining significant attention with the rise of large language model (LLM)-based tools in software engineering. Although recent advances have greatly improved LLMs' code completion abilities, evaluation methods have not advanced equally. Most current benchmarks focus solely on functional correctness of code completions based on given context, overlooking models' ability to follow user instructions during completion-a common scenario in LLM-assisted programming. To address this limitation, we present the first instruction-guided code completion benchmark, Controllable Code Completion Benchmark (C3-Bench), comprising 2,195 carefully designed completion tasks. Through comprehensive evaluation of over 40 mainstream LLMs across C3-Bench and conventional benchmarks, we reveal substantial gaps in instruction-following capabilities between open-source and advanced proprietary models during code completion tasks. Moreover, we develop a straightforward data synthesis pipeline that leverages Qwen2.5-Coder to generate high-quality instruction-completion pairs for supervised fine-tuning (SFT). The resulting model, Qwen2.5-Coder-C3, achieves state-of-the-art performance on C3-Bench. Our findings provide valuable insights for enhancing LLMs' code completion and instruction-following capabilities, establishing new directions for future research in code LLMs. To facilitate reproducibility and foster further research in code LLMs, we open-source all code, datasets, and models.
- Abstract(参考訳): コード補完は、ソフトウェア工学における大規模言語モデル(LLM)ベースのツールの台頭によって、重要な注目を集めている。
近年、LLMのコード補完能力は大幅に改善されているが、評価手法は等しく進歩していない。
現在のベンチマークのほとんどは、LLM支援プログラミングにおける一般的なシナリオである、完了中にユーザー命令に従うモデルの能力を見越して、与えられたコンテキストに基づいたコード補完の機能的正しさにのみ焦点を当てている。
この制限に対処するため,命令誘導型コード補完ベンチマークであるC3-Bench(C3-Bench)を提案する。
C3-Benchおよび従来のベンチマークで40以上の主要なLCMを網羅的に評価することで、コード補完タスクの間、オープンソースのプロプライエタリモデルと先進的なプロプライエタリモデルの間に、命令追従能力のかなりのギャップが明らかになる。
さらに、Qwen2.5-Coderを利用して、教師付き微調整(SFT)のための高品質な命令補完ペアを生成する簡単なデータ合成パイプラインを開発する。
結果として得られたQwen2.5-Coder-C3は、C3-Bench上で最先端のパフォーマンスを達成する。
本研究は,LLMのコード補完能力と命令追従能力を高めるための貴重な知見を提供し,将来的なコードLLM研究の方向性を確立した。
再現性を容易にし、コードLLMのさらなる研究を促進するため、私たちはすべてのコード、データセット、モデルをオープンソース化しました。
関連論文リスト
- CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。