論文の概要: M2G-Eval: Enhancing and Evaluating Multi-granularity Multilingual Code Generation
- arxiv url: http://arxiv.org/abs/2512.22628v1
- Date: Sat, 27 Dec 2025 16:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.146885
- Title: M2G-Eval: Enhancing and Evaluating Multi-granularity Multilingual Code Generation
- Title(参考訳): M2G-Eval:多言語多言語コード生成の強化と評価
- Authors: Fanglin Xu, Wei Zhang, Jian Yang, Guo Chen, Aishan Liu, Zhoujun Li, Xianglong Liu, Bryan Dai,
- Abstract要約: M2G-Evalは,大規模言語モデル(LLM)において,クラス,関数,ブロック,ラインの4段階にわたるコード生成を評価するフレームワークである。
M2G-Evalには17K以上のトレーニングタスクと1,286の人手による汚染制御テストインスタンスが含まれている。
- 参考スコア(独自算出の注目度): 42.21777678623796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of code large language models (LLMs) has sparked significant research interest in systematically evaluating their code generation capabilities, yet existing benchmarks predominantly assess models at a single structural granularity and focus on limited programming languages, obscuring fine-grained capability variations across different code scopes and multilingual scenarios. We introduce M2G-Eval, a multi-granularity, multilingual framework for evaluating code generation in large language models (LLMs) across four levels: Class, Function, Block, and Line. Spanning 18 programming languages, M2G-Eval includes 17K+ training tasks and 1,286 human-annotated, contamination-controlled test instances. We develop M2G-Eval-Coder models by training Qwen3-8B with supervised fine-tuning and Group Relative Policy Optimization. Evaluating 30 models (28 state-of-the-art LLMs plus our two M2G-Eval-Coder variants) reveals three main findings: (1) an apparent difficulty hierarchy, with Line-level tasks easiest and Class-level most challenging; (2) widening performance gaps between full- and partial-granularity languages as task complexity increases; and (3) strong cross-language correlations, suggesting that models learn transferable programming concepts. M2G-Eval enables fine-grained diagnosis of code generation capabilities and highlights persistent challenges in synthesizing complex, long-form code.
- Abstract(参考訳): コード大言語モデル(LLM)の急速な進歩は、コード生成能力を体系的に評価することに大きな研究の関心を呼んだが、既存のベンチマークは、モデルを単一の構造的な粒度で評価し、限られたプログラミング言語にフォーカスし、異なるコードスコープと多言語シナリオにまたがる詳細な機能変化を観測する。
M2G-Evalは,大規模言語モデル(LLM)におけるコード生成を,クラス,関数,ブロック,ラインの4段階にわたって評価する多言語多言語フレームワークである。
M2G-Evalは18のプログラミング言語を対象とし、17K以上のトレーニングタスクと1,286の人手による汚染制御テストインスタンスを含んでいる。
教師付き微調整とグループ相対ポリシー最適化によるQwen3-8Bのトレーニングにより,M2G-Eval-Coderモデルを開発した。
30のモデル(28の最先端LCMと2つのM2G-Eval-Coderの変種)を評価すると、(1)ラインレベルのタスクが最も簡単かつクラスレベルの難易度の高い明らかな難易度階層、(2)タスクの複雑さが増大するにつれて、全粒度言語と部分粒度言語のパフォーマンスギャップを拡大すること、(3)強い言語間の相関が示され、モデルが転送可能なプログラミング概念を学習することを示唆している。
M2G-Evalは、コード生成機能のきめ細かい診断を可能にし、複雑な長文のコードを合成する際の永続的な課題を強調します。
関連論文リスト
- AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators [11.285930594120076]
我々はAutoCodeGenを紹介した。AutoCodeGenは、手動のアノテーションを使わずに、高度に微分可能な多言語コード生成データセットを生成する自動メソッドである。
我々はAutoCodeBenchとその簡易版AutoCodeBench-Lite上で、30以上の主要なオープンソースおよびプロプライエタリなLLMを評価した。
その結果、最も先進的なLLMでさえ、これらのタスクの複雑さ、多様性、多言語性に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-12T17:29:20Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - MGS3: A Multi-Granularity Self-Supervised Code Search Framework [22.214324677526132]
マルチグラニュラリティ自己監督型コントラスト学習コード検索フレームワーク(MGS$3$)について紹介する。
まず、MGS$3$ は Supervised Multi-Granularity Representation Module (HMGR) を特徴としている。
様々な粒度のコード検索ベンチマーク実験を行い、複数の粒度のコード検索タスクにおいて優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-05-30T06:49:39Z) - CodeVisionary: An Agent-based Framework for Evaluating Large Language Models in Code Generation [11.174059895410359]
大規模言語モデル(LLM)は、コード生成において強力な能力を示している。
既存の評価アプローチは、人間中心、メートル法、LLMベースの3つのカテゴリに分類される。
複雑なコード生成のための最初のエージェントベースの評価フレームワークであるCodeVisionaryを提案する。
論文 参考訳(メタデータ) (2025-04-18T05:26:32Z) - Multi-Programming Language Ensemble for Code Generation in Large Language Model [5.882816711878273]
大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。
既存のアプローチのほとんどは、単一のプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。
本稿では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブルに基づくMulti-Programming Language Ensemble (MPLE)を提案する。
論文 参考訳(メタデータ) (2024-09-06T08:31:18Z) - The Struggles of LLMs in Cross-lingual Code Clone Detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティ内で注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
言語間コードクローンの識別のための5つの大言語モデル (LLM) と8つのプロンプト (08) の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。