論文の概要: Multi-lingual Evaluation of Code Generation Models
- arxiv url: http://arxiv.org/abs/2210.14868v1
- Date: Wed, 26 Oct 2022 17:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:21:24.439146
- Title: Multi-lingual Evaluation of Code Generation Models
- Title(参考訳): コード生成モデルの多言語評価
- Authors: Ben Athiwaratkun, Sanjay Krishna Gouda, Zijian Wang, Xiaopeng Li,
Yuchen Tian, Ming Tan, Wasi Uddin Ahmad, Shiqi Wang, Qing Sun, Mingyue Shang,
Sujan Kumar Gonugondla, Hantian Ding, Varun Kumar, Nathan Fulton, Arash
Farahani, Siddhartha Jain, Robert Giaquinto, Haifeng Qian, Murali Krishna
Ramanathan, Ramesh Nallapati, Baishakhi Ray, Parminder Bhatia, Sudipta
Sengupta, Dan Roth, Bing Xiang
- Abstract要約: 10以上のプログラミング言語で実行ベースのコード補完ベンチマークであるMBXPを提案する。
このデータセットのコレクションは変換フレームワークによって生成され、プロンプトとテストケースを元のMBPPデータセットからターゲット言語の対応するデータに変換する。
- 参考スコア(独自算出の注目度): 82.7357812992118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MBXP, an execution-based code completion benchmark in 10+
programming languages. This collection of datasets is generated by our
conversion framework that translates prompts and test cases from the original
MBPP dataset to the corresponding data in a target language. Based on this
benchmark, we are able to evaluate code generation models in a multi-lingual
fashion, and in particular discover generalization ability of language models
on out-of-domain languages, advantages of large multi-lingual models over
mono-lingual, benefits of few-shot prompting, and zero-shot translation
abilities. In addition, we use our code generation model to perform large-scale
bootstrapping to obtain synthetic canonical solutions in several languages.
These solutions can be used for other code-related evaluations such as
insertion-based, summarization, or code translation tasks where we demonstrate
results and release as part of our benchmark.
- Abstract(参考訳): 10以上のプログラミング言語における実行ベースのコード補完ベンチマークMBXPを提案する。
このデータセットのコレクションは変換フレームワークによって生成され、プロンプトとテストケースを元のMBPPデータセットからターゲット言語の対応するデータに変換する。
このベンチマークに基づいて、コード生成モデルを多言語方式で評価することができ、特に、ドメイン外言語における言語モデルの一般化能力、モノリンガルに対する大規模多言語モデルの利点、少ないプロンプトの利点、ゼロショット翻訳能力を見出すことができる。
さらに、コード生成モデルを用いて大規模なブートストラップを行い、複数の言語で合成標準解を得る。
これらのソリューションは、ベンチマークの一部として結果とリリースを示す挿入ベース、要約、コード翻訳タスクなど、他のコード関連の評価にも使用できます。
関連論文リスト
- mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining [4.38070902806635]
クロアチア語、セルビア語、ボスニア語、モンテネグロ語のベンチマークを設定しました。
我々は、利用可能な多言語モデルの追加事前学習により、専用のin-scratchモデルに匹敵する性能が得られることを示す。
また、Slovenianの場合、隣接する言語は、最終モデルの性能にほとんど、あるいは全く損なわない追加の事前訓練に含めることができることを示す。
論文 参考訳(メタデータ) (2024-04-08T11:55:44Z) - GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization
in Programming Language Understanding [5.9535699822923]
我々は,言語モデルの言語理解能力を評価するために,GenCodeSearchNet (GeCS) という新しいベンチマークデータセットを提案する。
完全なデータセットの一部として、我々が導入した新しい手作業でキュレートされたサブセットであるStatCodeSearchは、人気があるが、これまでのところあまり表現されていないプログラミング言語である。
評価と比較のために、細調整されたBERTスタイルモデルとGPTスタイルの大規模言語モデルを用いて、いくつかのベースライン結果を収集した。
論文 参考訳(メタデータ) (2023-11-16T09:35:00Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - A Scalable and Extensible Approach to Benchmarking NL2Code for 18
Programming Languages [1.6312827172331896]
我々は、自然言語からコード生成のための最初のマルチ言語並列ベンチマークであるMultiPL-Eを提案する。
我々は,MultiPL-Eのコード生成モデルであるCodexとInCoderの2つを評価した。
MultiPL-Eで表現される言語の範囲は、言語周波数と言語特徴がモデル性能に与える影響を調査することができる。
論文 参考訳(メタデータ) (2022-08-17T11:16:52Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。