論文の概要: From Effectiveness to Efficiency: Comparative Evaluation of Code Generated by LCGMs for Bilingual Programming Questions
- arxiv url: http://arxiv.org/abs/2406.00602v1
- Date: Sun, 2 Jun 2024 03:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 04:16:01.256466
- Title: From Effectiveness to Efficiency: Comparative Evaluation of Code Generated by LCGMs for Bilingual Programming Questions
- Title(参考訳): 効率性から効率性へ:二言語プログラミング問題に対するLCGMによるコードの比較評価
- Authors: Weipeng Jiang, Xuanqi Gao, Juan Zhai, Shiqing Ma, Xiaoyu Zhang, Chao Shen,
- Abstract要約: 大規模コード生成モデル(LCGM)は、様々なプログラミングタスクにおいて大きな注目を集め、有望な結果を得た。
既存のベンチマークは、LCGMが生成したコードの品質を不十分に評価する、英語のプログラミング問題と限定的なユニットテストケースに依存していることが多い。
本稿では,異なる自然言語を入力として使用する場合のコード品質の違い,特に有効性と効率について検討する。
- 参考スコア(独自算出の注目度): 32.464611304079234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Code Generation Models (LCGMs) have garnered significant attention and achieved promising results across various programming tasks. However, concerns arise regarding performance when using non-English prompts, as these models are primarily trained on English-centric corpora, and most programming language tokens resemble English. Existing benchmarks often rely on English programming questions and limited manual unit test cases, inadequately assessing LCGM-generated code quality. This paper investigates code quality differences, specifically effectiveness and efficiency, when employing different natural languages as inputs, focusing on Chinese and English due to their prominent corpora and LCGM availability. Evaluating LCGM-generated code quality under bilingual inputs presents three challenges: (1) lack of high-quality bilingual programming question datasets, (2) insufficient unit test cases for comprehensive correctness verification, and (3) limited support for comparing generated code performance. To address these challenges, we curated a test suite of 52 bilingual programming questions and developed automated input generators for each. We enhanced correctness verification by sampling larger unit test cases and estimated code performance by profiling execution time relative to input size growth. Using this framework, we conducted an empirical study on six state-of-the-art LCGMs. The results revealed that LCGM-generated code exhibits varying bilingual correctness on an average of 10.5% of tasks, with 39.5% of correct code showing diverse bilingual performance differences. Our findings suggested LCGMs may not consistently generate high-quality code across different languages, providing insights for future research directions.
- Abstract(参考訳): 大規模コード生成モデル(LCGM)は、様々なプログラミングタスクにおいて大きな注目を集め、有望な結果を得た。
しかし、これらのモデルは主に英語中心のコーパスで訓練されており、ほとんどのプログラミング言語トークンは英語に似ているため、英語以外のプロンプトを使用する場合のパフォーマンスに関する懸念が生じる。
既存のベンチマークは、LCGMが生成したコードの品質を不十分に評価する、英語のプログラミング問題と限定的なユニットテストケースに依存していることが多い。
本稿では,異なる自然言語を入力として使用する場合のコード品質差,特に有効性と効率について検討し,その顕著なコーパスとLCGMの可用性から,中国語と英語に焦点をあてる。
LCGMが生成したコード品質の評価は,(1)高品質なバイリンガルプログラミング問題データセットの欠如,(2)包括的正当性検証のための単体テストケース不足,(3)生成されたコード性能を比較するための限定的なサポート,の3つの課題を提示する。
これらの課題に対処するため、52のバイリンガルプログラミング問題からなるテストスイートをキュレートし、それぞれに自動入力生成装置を開発した。
我々は、より大きな単体テストケースをサンプリングし、入力サイズの増加に対して実行時間をプロファイリングすることで、コード性能を推定することにより、精度検証を強化した。
この枠組みを用いて,6つの最先端LCGMの実証的研究を行った。
その結果、LCGM生成したコードは平均10.5%のタスクでバイリンガルな正確性を示し、39.5%のコードがバイリンガルなパフォーマンスの違いを示していることがわかった。
LCGMは,様々な言語にまたがる高品質なコードを生成することができず,今後の研究の方向性を示唆している。
関連論文リスト
- Assessing Code Generation with Intermediate Languages [6.999311675957218]
本研究では、様々なプログラミング言語、自然言語ソリューション、擬似コードを含む中間言語の利用について検討する。
以上の結果から, 中間言語は一般に, 最先端性能を達成できていない大規模モデルにおいて, 高い有効性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-07-07T15:35:41Z) - PLUM: Preference Learning Plus Test Cases Yields Better Code Language Models [28.791570350483816]
PLUMは、コードLMにおける好み学習の重要な成功要因と潜在的利益について調査することを目的としている。
PLUMは、既存のコード生成ベンチマークにおける既存のコードLMのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2024-06-11T02:07:18Z) - Exploring Multi-Lingual Bias of Large Code Models in Code Generation [55.336629780101475]
コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。
有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。
LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
論文 参考訳(メタデータ) (2024-04-30T08:51:49Z) - CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation [18.354576598908448]
LLM(Large Language Models)は、人間のプログラミング支援に優れた性能を発揮している。
LLMのコード理解と生成能力を評価するための既存のベンチマークは、厳しい制限に悩まされている。
実行ベース,多言語,マルチタスク,多次元評価ベンチマークであるCodeScopeを紹介する。
論文 参考訳(メタデータ) (2023-11-14T23:18:52Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。