論文の概要: xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval
- arxiv url: http://arxiv.org/abs/2303.03004v3
- Date: Tue, 13 Jun 2023 11:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 17:33:55.065158
- Title: xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval
- Title(参考訳): xCodeEval: コード理解、生成、翻訳、検索のための大規模マルチ言語マルチタスクベンチマーク
- Authors: Mohammad Abdullah Matin Khan, M Saiful Bari, Xuan Long Do, Weishi
Wang, Md Rizwan Parvez, Shafiq Joty
- Abstract要約: 我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。
コード理解、生成、翻訳、検索を含む合計7つのタスクが特徴である。
xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
- 参考スコア(独自算出の注目度): 14.238675026143069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems that can create codes as solutions to problems or assist
developers in writing codes can increase productivity and make programming more
accessible. Recently, pre-trained large language models have shown impressive
abilities in generating codes from natural language descriptions, repairing
buggy codes, translating codes between languages, and retrieving relevant code
segments. However, the evaluation of these models has often been performed in a
scattered way on only one or two specific tasks, in a few languages, at a
partial granularity (e.g., function) level, and in many cases without proper
training data. Even more concerning is that in most cases the evaluation of
generated codes has been done in terms of mere lexical overlap with a reference
code rather than actual execution. We introduce xCodeEval, the largest
executable multilingual multitask benchmark to date consisting of 25M
document-level coding examples (16.5B tokens) from about 7.5K unique problems
covering up to 11 programming languages with execution-level parallelism. It
features a total of seven tasks involving code understanding, generation,
translation and retrieval. xCodeEval adopts an execution-based evaluation and
offers a multilingual code execution engine, ExecEval that supports unit test
based execution in all the 11 languages. To address the challenge of balancing
the distributions of text-code samples over multiple attributes in
validation/test sets, we further propose a novel data splitting and a data
selection schema based on the geometric mean and graph-theoretic principle.
Experimental results on all the tasks and languages show xCodeEval is a
promising yet challenging benchmark as per the current advancements in language
models.
- Abstract(参考訳): 問題に対する解決策としてコードを作成したり、開発者がコードを書くのを助けるAIシステムは、生産性を高め、プログラミングをよりアクセスしやすくする。
近年、事前訓練された大規模言語モデルでは、自然言語記述からコードを生成する能力、バギーコードの修正、言語間のコード変換、関連するコードセグメントの検索が印象的になっている。
しかしながら、これらのモデルの評価は、1つまたは2つの特定のタスクだけに分散して行われ、いくつかの言語では、部分的な粒度(例えば関数)レベルで行われ、多くの場合、適切なトレーニングデータを持たない。
さらに懸念されるのは、ほとんどの場合、生成されたコードの評価は、実際の実行ではなく、参照コードと単なる語彙的に重複しているという点である。
これまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。25万のドキュメントレベルコーディング例(16.5Bトークン)は、実行レベル並列性を持つ11のプログラミング言語をカバーする7.5Kのユニークな問題から成り立っている。
コード理解、生成、翻訳、検索を含む合計7つのタスクが特徴である。
xCodeEvalは実行ベースの評価を採用し、11言語すべてでユニットテストベースの実行をサポートする多言語コード実行エンジンであるExecEvalを提供する。
バリデーション/テストセットにおける複数の属性に対するテキストコードサンプルの分散化の課題に対処するため,さらに,幾何学平均とグラフ理論に基づく新しいデータ分割とデータ選択スキーマを提案する。
すべてのタスクと言語の実験的結果から、xCodeEvalは、現在の言語モデルの進歩と同様に、有望だが挑戦的なベンチマークであることがわかる。
関連論文リスト
- mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Can Large Language Models Write Parallel Code? [0.5317767988097261]
大規模言語モデルは、ソフトウェア開発の一般的なツールになりつつある。
本稿では,最先端言語モデルによる並列コード生成能力について検討する。
論文 参考訳(メタデータ) (2024-01-23T08:25:12Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。