論文の概要: RoCode: A Dataset for Measuring Code Intelligence from Problem
Definitions in Romanian
- arxiv url: http://arxiv.org/abs/2402.13222v1
- Date: Tue, 20 Feb 2024 18:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 13:54:43.600920
- Title: RoCode: A Dataset for Measuring Code Intelligence from Problem
Definitions in Romanian
- Title(参考訳): RoCode: ルーマニアの問題解決からコードインテリジェンスを測定するデータセット
- Authors: Adrian Cosma and Bogdan Iordache and Paolo Rosso
- Abstract要約: ルーマニア語で書かれた2,642問題からなる競合プログラミングデータセットであるRoCodeを紹介する。
我々は、英語以外の言語のためのコードモデルを開発する必要があると主張している。
- 参考スコア(独自算出の注目度): 10.035193313198207
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, large language models (LLMs) have become increasingly powerful and
have become capable of solving a plethora of tasks through proper instructions
in natural language. However, the vast majority of testing suites assume that
the instructions are written in English, the de facto prompting language. Code
intelligence and problem solving still remain a difficult task, even for the
most advanced LLMs. Currently, there are no datasets to measure the
generalization power for code-generation models in a language other than
English. In this work, we present RoCode, a competitive programming dataset,
consisting of 2,642 problems written in Romanian, 11k solutions in C, C++ and
Python and comprehensive testing suites for each problem. The purpose of RoCode
is to provide a benchmark for evaluating the code intelligence of language
models trained on Romanian / multilingual text as well as a fine-tuning set for
pretrained Romanian models. Through our results and review of related works, we
argue for the need to develop code models for languages other than English.
- Abstract(参考訳): 近年、大規模言語モデル (LLM) はますます強力になり、自然言語の適切な命令によって多くのタスクを解くことができるようになった。
しかし、テストスイートの大多数は、命令は事実上のプロンプト言語である英語で書かれていると仮定している。
コードインテリジェンスと問題解決は、最も先進的なLCMでも依然として難しい課題である。
現在、英語以外の言語でコード生成モデルの一般化能力を測定するデータセットは存在しない。
ルーマニア語で書かれた2,642の問題,C,C++,Pythonの11kのソリューション,各問題に対する包括的なテストスイートからなる,競争力のあるプログラミングデータセットであるRoCodeを紹介する。
RoCodeの目的は、ルーマニア語/多言語テキストで訓練された言語モデルのコードインテリジェンスを評価するためのベンチマークと、事前訓練されたルーマニア語モデルの微調整セットを提供することである。
関連研究の結果とレビューを通じて、英語以外の言語のためのコードモデルの開発の必要性を論じた。
関連論文リスト
- MdEval: Massively Multilingual Code Debugging [37.48700033342978]
18のプログラミング言語の3.6Kテストサンプルを含む,最初の大規模多言語デバッグベンチマークを提案する。
本稿では, MDEVAL-INSTRUCT 命令コーパスを導入し, 正しい多言語クエリとソリューションにバグを注入する。
MDEVALにおける実験により,オープンソースモデルとクローズドソースLLM間の顕著な性能差が明らかになった。
論文 参考訳(メタデータ) (2024-11-04T17:36:40Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。
コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。
xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文 参考訳(メタデータ) (2023-03-06T10:08:51Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models [1.827510863075184]
NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。
既存のベンチマークでは、文法構造が複雑であるため、収集やラベル付けが困難であるコードスイッチ付き発話が欠如している。
我々の研究は、可塑性で自然な発声音声を生成するための認識された手法を採用し、それらを用いて合成コード発声テストセットを作成する。
論文 参考訳(メタデータ) (2021-09-29T11:15:00Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。