論文の概要: Exploring Multi-Lingual Bias of Large Code Models in Code Generation
- arxiv url: http://arxiv.org/abs/2404.19368v1
- Date: Tue, 30 Apr 2024 08:51:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:54:33.943953
- Title: Exploring Multi-Lingual Bias of Large Code Models in Code Generation
- Title(参考訳): コード生成における大規模コードモデルの多言語バイアスの探索
- Authors: Chaozheng Wang, Zongjie Li, Cuiyun Gao, Wenxuan Wang, Ting Peng, Hailiang Huang, Yuetang Deng, Shuai Wang, Michael R. Lyu,
- Abstract要約: コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。
有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。
LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
- 参考スコア(独自算出の注目度): 55.336629780101475
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code generation aims to synthesize code and fulfill functional requirements based on natural language (NL) specifications, which can greatly improve development efficiency. In the era of large language models (LLMs), large code models (LCMs) have been recently proposed to generate source code. LCMs can generate highly feasible solutions for programming problems described in natural language. Despite the effectiveness, we observe a noticeable multilingual bias in the generation performance of LCMs. Specifically, LCMs demonstrate proficiency in generating solutions when provided with instructions in English, yet may falter when faced with semantically equivalent instructions in other NLs such as Chinese. Moreover, the ability of LCMs to generate code exhibits variety across different programming languages (PLs), such as Python and C++. The observed phenomenon indicates the presence of multi-lingual bias within the generative capabilities of LCMs, which has remained unexplored. In this paper, we aim to investigate the multi-lingual bias that exists in current LCMs. First, we initiate our investigation by constructing the first multi-lingual evaluation benchmark X-HumanEval-X, enabling us to systematically evaluate the extent of multi-lingual bias that exists in current LCMs. In our large-scale experiments on nine popular LCMs, we observe a pronounced multi-lingual bias of LCMs in code generation, including multi-NL and multi-PL bias. Specifically, when using Chinese instructions, the code generation capabilities of LCMs decrease by at least 13% in terms of the Pass@1 metric. Furthermore, LCMs perform variously across different programming languages, e.g., the performance gap between Python and C++ reaches as high as 20.9%. ...
- Abstract(参考訳): コード生成は、コードを合成し、自然言語(NL)仕様に基づいて機能要件を満たすことを目的としている。
大規模言語モデル (LLM) の時代、ソースコードを生成するために大規模なコードモデル (LCM) が最近提案されている。
LCMは、自然言語で記述されたプログラミング問題に対して、非常に実現可能なソリューションを生成することができる。
この効果にもかかわらず, LCMの生成性能に顕著な多言語バイアスが認められる。
特に、LCMは、英語の命令が提供されると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、混乱する可能性がある。
さらに、LCMがコードを生成する能力は、PythonやC++など、さまざまなプログラミング言語(PL)にまたがっている。
観察された現象は, LCMの生成能に多言語バイアスが存在することを示しているが, 未解明のままである。
本稿では,現在のLCMに存在する多言語バイアスについて検討する。
まず,マルチ言語評価ベンチマークX-HumanEval-Xを構築し,現在のLCMに存在するマルチ言語バイアスの程度を体系的に評価する。
9つの人気のあるLCMに関する大規模な実験では、マルチNLやマルチPLバイアスを含むコード生成におけるLCMの多言語バイアスが顕著に観察される。
具体的には、中国語の命令を使用すると、Pass@1メトリックスの観点から、LCMのコード生成能力は少なくとも13%低下する。
さらに、LCMは、PythonとC++のパフォーマンスギャップが最大で20.9%に達するなど、様々なプログラミング言語で様々なパフォーマンスを実現している。
はぁ...。
関連論文リスト
- Code-mixed LLM: Improve Large Language Models' Capability to Handle Code-Mixing through Reinforcement Learning from AI Feedback [11.223762031003671]
コードミキシングは、構文ミスマッチやセマンティックブレンディングなど、日常生活におけるユニークな課題を導入している。
大規模言語モデル(LLM)は、人間の言語を理解するのに前例のない能力を提供することによって、自然言語処理(NLP)の分野に革命をもたらした。
本稿では,人間フィードバック(RLHF)とコード混合機械翻訳タスクの強化学習を通じて,多言語LLMのコードミキシング理解能力を改善することを提案する。
論文 参考訳(メタデータ) (2024-11-13T22:56:00Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - Multi-Programming Language Ensemble for Code Generation in Large Language Model [5.882816711878273]
大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。
既存のアプローチのほとんどは、単一のプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。
本稿では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブルに基づくMulti-Programming Language Ensemble (MPLE)を提案する。
論文 参考訳(メタデータ) (2024-09-06T08:31:18Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。