論文の概要: XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence
- arxiv url: http://arxiv.org/abs/2206.08474v1
- Date: Thu, 16 Jun 2022 22:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:06:58.023087
- Title: XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence
- Title(参考訳): XLCoST: 言語間コードインテリジェンスのためのベンチマークデータセット
- Authors: Ming Zhu, Aneesh Jain, Karthik Suresh, Roshan Ravindran, Sindhu
Tipirneni, Chandan K. Reddy
- Abstract要約: 本稿では,言語間コードインテリジェンスのための新しいベンチマークデータセットであるXLCoST, Cross-Lingual Code SnippeTデータセットを紹介する。
データセットには8言語からの詳細な並列データが含まれており、10の言語間コードタスクをサポートしている。
- 参考スコア(独自算出の注目度): 9.673614921946932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in machine learning have significantly improved the
understanding of source code data and achieved good performance on a number of
downstream tasks. Open source repositories like GitHub enable this process with
rich unlabeled code data. However, the lack of high quality labeled data has
largely hindered the progress of several code related tasks, such as program
translation, summarization, synthesis, and code search. This paper introduces
XLCoST, Cross-Lingual Code SnippeT dataset, a new benchmark dataset for
cross-lingual code intelligence. Our dataset contains fine-grained parallel
data from 8 languages (7 commonly used programming languages and English), and
supports 10 cross-lingual code tasks. To the best of our knowledge, it is the
largest parallel dataset for source code both in terms of size and the number
of languages. We also provide the performance of several state-of-the-art
baseline models for each task. We believe this new dataset can be a valuable
asset for the research community and facilitate the development and validation
of new methods for cross-lingual code intelligence.
- Abstract(参考訳): 機械学習の最近の進歩は、ソースコードデータの理解を大幅に改善し、多くの下流タスクで優れたパフォーマンスを達成した。
GitHubのようなオープンソースリポジトリは、このプロセスをリッチなラベル付きコードデータで実現している。
しかし、高品質なラベル付きデータの欠如は、プログラム翻訳、要約、合成、コード検索など、いくつかのコード関連タスクの進行をほとんど妨げている。
本稿では,言語間コードインテリジェンスのための新しいベンチマークデータセットであるXLCoST, Cross-Lingual Code SnippeTデータセットを紹介する。
我々のデータセットは8つの言語(一般的に7つのプログラミング言語と英語)の詳細な並列データを含み、10の言語間コードタスクをサポートしている。
私たちの知る限りでは、サイズと言語数の両方において、ソースコードのための最大の並列データセットです。
また、各タスクに対する最先端のベースラインモデルのパフォーマンスも提供します。
この新しいデータセットは研究コミュニティにとって貴重な資産であり、言語横断型コードインテリジェンスのための新しい手法の開発と検証を促進するものだと考えています。
関連論文リスト
- Multi-Agent Collaboration for Multilingual Code Instruction Tuning [41.74155456003822]
コードLLMのための多言語命令チューニングを強化するための,新しいマルチエージェント協調フレームワークを提案する。
生成メモリを備えた複数の言語固有のインテリジェントエージェントコンポーネントが協調して、ある言語から別の言語に知識を効率よく伝達する。
多言語プログラミングベンチマークの実験結果は、共通知識を共有する上でQwen2.5-xCoderの優れた性能を示している。
論文 参考訳(メタデータ) (2025-02-11T11:46:38Z) - Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - CodeTransOcean: A Comprehensive Multilingual Benchmark for Code
Translation [8.979765541978292]
CodeTransOceanは、コード翻訳のための最大のプログラミング言語をサポートする大規模な包括的なデータセットである。
CodeTransOceanは3つの新しい多言語データセット、すなわち、複数のポピュラープログラミング言語間の翻訳をサポートするMultilingualTrans、ニッチプログラミング言語とポピュラー言語間の翻訳を行うNicheTrans、大言語モデル(LLM)による翻訳コードの実行可能性を評価するLLMTransで構成されている。
論文 参考訳(メタデータ) (2023-10-08T00:16:18Z) - The Vault: A Comprehensive Multilingual Dataset for Advancing Code
Understanding and Generation [5.2510537676167335]
複数のプログラミング言語における高品質なコードテキストペアのデータセットであるThe Vaultを提示する。
我々の評価では、The Vault上でコード大言語モデルを微調整すると、このようなモデルはCodeSearchNetのような他のデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-09T09:35:03Z) - xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。
コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。
xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文 参考訳(メタデータ) (2023-03-06T10:08:51Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CoDesc: A Large Code-Description Parallel Dataset [4.828053113572208]
CoDescは420万のJavaメソッドと自然言語記述からなる大規模な並列データセットです。
広範囲な分析により、データセットから一般的なノイズパターンを特定し、削除する。
このデータセットは、コード検索を最大22%改善し、コード要約における新しい最先端を実現するのに役立ちます。
論文 参考訳(メタデータ) (2021-05-29T05:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。