論文の概要: xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval
- arxiv url: http://arxiv.org/abs/2303.03004v2
- Date: Mon, 17 Apr 2023 05:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 20:54:45.700155
- Title: xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval
- Title(参考訳): xCodeEval: コード理解、生成、翻訳、検索のための大規模マルチ言語マルチタスクベンチマーク
- Authors: Mohammad Abdullah Matin Khan, M Saiful Bari, Xuan Long Do, Weishi
Wang, Md Rizwan Parvez, Shafiq Joty
- Abstract要約: 問題に対する解決策としてプログラムを作成できるAIシステムや、プログラムを書く開発者を支援するAIシステムは、生産性を高め、プログラミングをよりアクセスしやすくする。
近年、事前訓練された大規模言語モデルは、自然言語記述から新しいコードを生成する際、印象的な能力を示している。
しかし、これらのモデルの評価は1つまたは2つの特定のタスクで分散して行われることが多い。
- 参考スコア(独自算出の注目度): 14.238675026143069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to solve problems is a hallmark of intelligence and has been an
enduring goal in AI. AI systems that can create programs as solutions to
problems or assist developers in writing programs can increase productivity and
make programming more accessible. Recently, pre-trained large language models
have shown impressive abilities in generating new codes from natural language
descriptions, repairing buggy codes, translating codes between languages, and
retrieving relevant code segments. However, the evaluation of these models has
often been performed in a scattered way on only one or two specific tasks, in a
few languages, at a partial granularity (e.g., function) level and in many
cases without proper training data. Even more concerning is that in most cases
the evaluation of generated codes has been done in terms of mere lexical
overlap rather than actual execution whereas semantic similarity (or
equivalence) of two code segments depends only on their ``execution
similarity'', i.e., being able to get the same output for a given input.
- Abstract(参考訳): 問題を解決する能力は知性の目印であり、AIの永続的な目標でした。
問題に対するソリューションとしてプログラムを作成したり、プログラムを書く開発者を支援したりできるaiシステムは、生産性を高め、プログラミングをよりアクセスしやすくする。
最近、訓練済みの大規模言語モデルでは、自然言語記述から新しいコードを生成すること、バグのあるコードを修正すること、言語間のコード変換、関連するコードセグメントの検索に顕著な能力を示している。
しかし、これらのモデルの評価は、1つか2つの特定のタスク、いくつかの言語、部分的な粒度(例えば、関数)レベル、多くの場合、適切なトレーニングデータなしで、散在的に行われてきた。
さらに懸念されるのは、ほとんどの場合、生成されたコードの評価は実際の実行よりも単なる語彙的なオーバーラップによって行われ、一方、2つのコードセグメントの意味的類似性(または等価性)は、その'`execution similarity''、すなわち、与えられた入力に対して同じ出力を得ることができることである。
関連論文リスト
- mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Can Large Language Models Write Parallel Code? [0.5317767988097261]
大規模言語モデルは、ソフトウェア開発の一般的なツールになりつつある。
本稿では,最先端言語モデルによる並列コード生成能力について検討する。
論文 参考訳(メタデータ) (2024-01-23T08:25:12Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。