Fugu-MT 論文翻訳(概要): XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence

論文の概要: XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence

arxiv url: http://arxiv.org/abs/2206.08474v1
Date: Thu, 16 Jun 2022 22:49:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-20 13:06:58.023087
Title: XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence
Title（参考訳）: XLCoST: 言語間コードインテリジェンスのためのベンチマークデータセット
Authors: Ming Zhu, Aneesh Jain, Karthik Suresh, Roshan Ravindran, Sindhu Tipirneni, Chandan K. Reddy
Abstract要約: 本稿では,言語間コードインテリジェンスのための新しいベンチマークデータセットであるXLCoST, Cross-Lingual Code SnippeTデータセットを紹介する。データセットには8言語からの詳細な並列データが含まれており、10の言語間コードタスクをサポートしている。
参考スコア（独自算出の注目度）: 9.673614921946932
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advances in machine learning have significantly improved the understanding of source code data and achieved good performance on a number of downstream tasks. Open source repositories like GitHub enable this process with rich unlabeled code data. However, the lack of high quality labeled data has largely hindered the progress of several code related tasks, such as program translation, summarization, synthesis, and code search. This paper introduces XLCoST, Cross-Lingual Code SnippeT dataset, a new benchmark dataset for cross-lingual code intelligence. Our dataset contains fine-grained parallel data from 8 languages (7 commonly used programming languages and English), and supports 10 cross-lingual code tasks. To the best of our knowledge, it is the largest parallel dataset for source code both in terms of size and the number of languages. We also provide the performance of several state-of-the-art baseline models for each task. We believe this new dataset can be a valuable asset for the research community and facilitate the development and validation of new methods for cross-lingual code intelligence.
Abstract（参考訳）: 機械学習の最近の進歩は、ソースコードデータの理解を大幅に改善し、多くの下流タスクで優れたパフォーマンスを達成した。 GitHubのようなオープンソースリポジトリは、このプロセスをリッチなラベル付きコードデータで実現している。しかし、高品質なラベル付きデータの欠如は、プログラム翻訳、要約、合成、コード検索など、いくつかのコード関連タスクの進行をほとんど妨げている。本稿では,言語間コードインテリジェンスのための新しいベンチマークデータセットであるXLCoST, Cross-Lingual Code SnippeTデータセットを紹介する。我々のデータセットは8つの言語(一般的に7つのプログラミング言語と英語)の詳細な並列データを含み、10の言語間コードタスクをサポートしている。私たちの知る限りでは、サイズと言語数の両方において、ソースコードのための最大の並列データセットです。また、各タスクに対する最先端のベースラインモデルのパフォーマンスも提供します。この新しいデータセットは研究コミュニティにとって貴重な資産であり、言語横断型コードインテリジェンスのための新しい手法の開発と検証を促進するものだと考えています。

関連論文リスト

Multi-Agent Collaboration for Multilingual Code Instruction Tuning [41.74155456003822]
コードLLMのための多言語命令チューニングを強化するための,新しいマルチエージェント協調フレームワークを提案する。生成メモリを備えた複数の言語固有のインテリジェントエージェントコンポーネントが協調して、ある言語から別の言語に知識を効率よく伝達する。多言語プログラミングベンチマークの実験結果は、共通知識を共有する上でQwen2.5-xCoderの優れた性能を示している。
論文参考訳（メタデータ） (2025-02-11T11:46:38Z)
Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文参考訳（メタデータ） (2024-09-20T14:49:51Z)
CodeShell Technical Report [23.741490720927068]
8Kコンテキスト長の基盤モデルであるCodeShell-Baseを提案する。 GitHubから1000億の高品質の事前トレーニングデータをキュレートしました。高品質のデータから得られるCodeShell-Baseは、わずか500億のトークン(5エポック)でトレーニングした後、HumanevalのCodeLlamaを上回った
論文参考訳（メタデータ） (2024-03-23T07:29:41Z)
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。 IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文参考訳（メタデータ） (2024-03-06T17:52:08Z)
CodeTransOcean: A Comprehensive Multilingual Benchmark for Code Translation [8.979765541978292]
CodeTransOceanは、コード翻訳のための最大のプログラミング言語をサポートする大規模な包括的なデータセットである。 CodeTransOceanは3つの新しい多言語データセット、すなわち、複数のポピュラープログラミング言語間の翻訳をサポートするMultilingualTrans、ニッチプログラミング言語とポピュラー言語間の翻訳を行うNicheTrans、大言語モデル(LLM)による翻訳コードの実行可能性を評価するLLMTransで構成されている。
論文参考訳（メタデータ） (2023-10-08T00:16:18Z)
The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation [5.2510537676167335]
複数のプログラミング言語における高品質なコードテキストペアのデータセットであるThe Vaultを提示する。我々の評価では、The Vault上でコード大言語モデルを微調整すると、このようなモデルはCodeSearchNetのような他のデータセットでトレーニングされたモデルよりも優れています。
論文参考訳（メタデータ） (2023-05-09T09:35:03Z)
xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。 xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文参考訳（メタデータ） (2023-03-06T10:08:51Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文参考訳（メタデータ） (2022-03-16T04:21:50Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
CoDesc: A Large Code-Description Parallel Dataset [4.828053113572208]
CoDescは420万のJavaメソッドと自然言語記述からなる大規模な並列データセットです。広範囲な分析により、データセットから一般的なノイズパターンを特定し、削除する。このデータセットは、コード検索を最大22%改善し、コード要約における新しい最先端を実現するのに役立ちます。
論文参考訳（メタデータ） (2021-05-29T05:40:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。