論文の概要: Project CodeNet: A Large-Scale AI for Code Dataset for Learning a
Diversity of Coding Tasks
- arxiv url: http://arxiv.org/abs/2105.12655v1
- Date: Tue, 25 May 2021 00:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:20:31.038303
- Title: Project CodeNet: A Large-Scale AI for Code Dataset for Learning a
Diversity of Coding Tasks
- Title(参考訳): Project CodeNet: コーディングタスクの多様性を学ぶためのコードデータセットのための大規模AI
- Authors: Ruchir Puri, David S. Kung, Geert Janssen, Wei Zhang, Giacomo
Domeniconi, Vladmir Zolotov, Julian Dolby, Jie Chen, Mihir Choudhury, Lindsey
Decker, Veronika Thost, Luca Buratti, Saurabh Pujar, Ulrich Finkler
- Abstract要約: Project CodeNetは、1400万のコードサンプルと55の異なるプログラミング言語で約5億行のコードで構成されている。
Project CodeNetは、その規模だけでなく、ベンチマークに役立つコーディングタスクの多様性にも特有である。
- 参考スコア(独自算出の注目度): 11.10732802304274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in deep learning and machine learning algorithms have enabled
breakthrough progress in computer vision, speech recognition, natural language
processing and beyond. In addition, over the last several decades, software has
been built into the fabric of every aspect of our society. Together, these two
trends have generated new interest in the fast-emerging research area of AI for
Code. As software development becomes ubiquitous across all industries and code
infrastructure of enterprise legacy applications ages, it is more critical than
ever to increase software development productivity and modernize legacy
applications. Over the last decade, datasets like ImageNet, with its large
scale and diversity, have played a pivotal role in algorithmic advancements
from computer vision to language and speech understanding. In this paper, we
present Project CodeNet, a first-of-its-kind, very large scale, diverse, and
high-quality dataset to accelerate the algorithmic advancements in AI for Code.
It consists of 14M code samples and about 500M lines of code in 55 different
programming languages. Project CodeNet is not only unique in its scale, but
also in the diversity of coding tasks it can help benchmark: from code
similarity and classification for advances in code recommendation algorithms,
and code translation between a large variety programming languages, to advances
in code performance (both runtime, and memory) improvement techniques. CodeNet
also provides sample input and output test sets for over 7M code samples, which
can be critical for determining code equivalence in different languages. As a
usability feature, we provide several preprocessing tools in Project CodeNet to
transform source codes into representations that can be readily used as inputs
into machine learning models.
- Abstract(参考訳): ディープラーニングと機械学習アルゴリズムの進歩は、コンピュータビジョン、音声認識、自然言語処理などにおいて画期的な進歩をもたらした。
さらに、過去数十年にわたって、ソフトウェアは私たちの社会のあらゆる側面のファブリックに組み込まれてきました。
これら2つのトレンドは、AI for Codeの急成長する研究領域に新たな関心を呼び起こした。
ソフトウェア開発がエンタープライズレガシーアプリケーションのすべての産業とコードインフラストラクチャに浸透するにつれ、ソフトウェア開発の生産性を高め、レガシーアプリケーションを近代化することが、これまで以上に重要になっている。
過去10年間で、ImageNetのような大規模なデータセットは、コンピュータビジョンから言語や音声理解まで、アルゴリズムの進歩において重要な役割を担ってきた。
本稿では,AI for Codeのアルゴリズム的進歩を加速するための,一級,大規模,多種多様,高品質なデータセットであるProject CodeNetを提案する。
1400万のコードサンプルと、55の異なるプログラミング言語で約500万行のコードからなる。
project codenetはその規模だけでなく、コードの類似性やコードのレコメンデーションアルゴリズムの進歩の分類、多種多様なプログラミング言語間のコード変換、コードパフォーマンスの向上(ランタイムとメモリの両方)といった、ベンチマークの助けにもなります。
CodeNetは700万以上のコードサンプルに対して、サンプルのインプットと出力のテストセットも提供している。
ユーザビリティ機能として、私たちはproject codenetでソースコードをインプットとして簡単に機械学習モデルに使用できる表現に変換するプリプロセッシングツールをいくつか提供しています。
関連論文リスト
- IRCoder: Intermediate Representations Make Language Models Robust
Multilingual Code Generators [55.40713784611711]
本研究では,コンパイラ中間表現を活用することで,Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - CodePori: Large Scale Model for Autonomous Software Development by Using
Multi-Agents [3.8066447473175304]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学(SE)の分野を変えつつある。
本稿では,自然言語のプロンプトに基づく大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化する新しいモデルであるCodePoriを紹介する。
論文では、CodePoriが大規模なプロジェクトのために実行中のコードを生成し、数時間ではなく数分でソフトウェア開発プロセス全体を完了し、数ドルというコストで実行可能であることを示しています。
論文 参考訳(メタデータ) (2024-02-02T13:42:50Z) - Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit [63.82016263181941]
コードインテリジェンスは、機械学習技術を活用して、広範なコードコーパスから知識を抽出する。
現在、コードインテリジェンスに重点を置く研究コミュニティは活発です。
論文 参考訳(メタデータ) (2023-12-30T17:48:37Z) - TransformCode: A Contrastive Learning Framework for Code Embedding via
Subtree transformation [10.168149114095566]
我々は、コード埋め込みを対照的な学習方法で学習する、TransformCodeと呼ばれる新しいフレームワークを提案する。
私たちのフレームワークは柔軟で適応性があり、コード表現を必要とする他の下流タスクに簡単に拡張できます。
論文 参考訳(メタデータ) (2023-11-10T09:05:23Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - A Comparative Study of Code Generation using ChatGPT 3.5 across 10
Programming Languages [0.0]
LLM(Large Language Models)は、高度な人工知能(AI)システムである。
本研究では,2022年11月にOpenAIがリリースしたLLMであるChatGPT 3.5の符号化能力について検討する。
コードスニペットを作成する際のモデルのスキルは、10の異なるプログラミング言語と4つの異なるソフトウェアドメインで評価される。
論文 参考訳(メタデータ) (2023-08-08T15:02:32Z) - Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets [0.0]
この研究は、AI駆動のコードアシスタントを使用して、現代技術を形成する影響力のあるコンピュータコードの選択を分析する。
この研究の最初の貢献は、過去50年で最も重要なコードの進歩の半分を調査することであった。
論文 参考訳(メタデータ) (2023-01-05T23:17:17Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Competition-Level Code Generation with AlphaCode [74.87216298566942]
より深い推論を必要とする問題に対する新しいソリューションを作成することができるコード生成システムであるAlphaCodeを紹介する。
Codeforcesプラットフォームにおける最近のプログラミングコンペティションのシミュレーション評価において、AlphaCodeは平均54.3%のランキングを達成した。
論文 参考訳(メタデータ) (2022-02-08T23:16:31Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。