論文の概要: Project CodeNet: A Large-Scale AI for Code Dataset for Learning a
Diversity of Coding Tasks
- arxiv url: http://arxiv.org/abs/2105.12655v1
- Date: Tue, 25 May 2021 00:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:20:31.038303
- Title: Project CodeNet: A Large-Scale AI for Code Dataset for Learning a
Diversity of Coding Tasks
- Title(参考訳): Project CodeNet: コーディングタスクの多様性を学ぶためのコードデータセットのための大規模AI
- Authors: Ruchir Puri, David S. Kung, Geert Janssen, Wei Zhang, Giacomo
Domeniconi, Vladmir Zolotov, Julian Dolby, Jie Chen, Mihir Choudhury, Lindsey
Decker, Veronika Thost, Luca Buratti, Saurabh Pujar, Ulrich Finkler
- Abstract要約: Project CodeNetは、1400万のコードサンプルと55の異なるプログラミング言語で約5億行のコードで構成されている。
Project CodeNetは、その規模だけでなく、ベンチマークに役立つコーディングタスクの多様性にも特有である。
- 参考スコア(独自算出の注目度): 11.10732802304274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in deep learning and machine learning algorithms have enabled
breakthrough progress in computer vision, speech recognition, natural language
processing and beyond. In addition, over the last several decades, software has
been built into the fabric of every aspect of our society. Together, these two
trends have generated new interest in the fast-emerging research area of AI for
Code. As software development becomes ubiquitous across all industries and code
infrastructure of enterprise legacy applications ages, it is more critical than
ever to increase software development productivity and modernize legacy
applications. Over the last decade, datasets like ImageNet, with its large
scale and diversity, have played a pivotal role in algorithmic advancements
from computer vision to language and speech understanding. In this paper, we
present Project CodeNet, a first-of-its-kind, very large scale, diverse, and
high-quality dataset to accelerate the algorithmic advancements in AI for Code.
It consists of 14M code samples and about 500M lines of code in 55 different
programming languages. Project CodeNet is not only unique in its scale, but
also in the diversity of coding tasks it can help benchmark: from code
similarity and classification for advances in code recommendation algorithms,
and code translation between a large variety programming languages, to advances
in code performance (both runtime, and memory) improvement techniques. CodeNet
also provides sample input and output test sets for over 7M code samples, which
can be critical for determining code equivalence in different languages. As a
usability feature, we provide several preprocessing tools in Project CodeNet to
transform source codes into representations that can be readily used as inputs
into machine learning models.
- Abstract(参考訳): ディープラーニングと機械学習アルゴリズムの進歩は、コンピュータビジョン、音声認識、自然言語処理などにおいて画期的な進歩をもたらした。
さらに、過去数十年にわたって、ソフトウェアは私たちの社会のあらゆる側面のファブリックに組み込まれてきました。
これら2つのトレンドは、AI for Codeの急成長する研究領域に新たな関心を呼び起こした。
ソフトウェア開発がエンタープライズレガシーアプリケーションのすべての産業とコードインフラストラクチャに浸透するにつれ、ソフトウェア開発の生産性を高め、レガシーアプリケーションを近代化することが、これまで以上に重要になっている。
過去10年間で、ImageNetのような大規模なデータセットは、コンピュータビジョンから言語や音声理解まで、アルゴリズムの進歩において重要な役割を担ってきた。
本稿では,AI for Codeのアルゴリズム的進歩を加速するための,一級,大規模,多種多様,高品質なデータセットであるProject CodeNetを提案する。
1400万のコードサンプルと、55の異なるプログラミング言語で約500万行のコードからなる。
project codenetはその規模だけでなく、コードの類似性やコードのレコメンデーションアルゴリズムの進歩の分類、多種多様なプログラミング言語間のコード変換、コードパフォーマンスの向上(ランタイムとメモリの両方)といった、ベンチマークの助けにもなります。
CodeNetは700万以上のコードサンプルに対して、サンプルのインプットと出力のテストセットも提供している。
ユーザビリティ機能として、私たちはproject codenetでソースコードをインプットとして簡単に機械学習モデルに使用できる表現に変換するプリプロセッシングツールをいくつか提供しています。
関連論文リスト
- Leveraging Large Language Models for Code Translation and Software Development in Scientific Computing [0.9668407688201359]
生成人工知能(GenAI)は、科学計算における生産性を変革する。
我々は、コード変換の効率的なプロセスを確立するために、プロンプトエンジニアリングとユーザ管理を組み合わせたCodeScribeというツールを開発した。
AIによるコード翻訳の課題にも対処し、科学計算における生産性向上のメリットを強調します。
論文 参考訳(メタデータ) (2024-10-31T16:48:41Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit [63.82016263181941]
コードインテリジェンスは、機械学習技術を活用して、広範なコードコーパスから知識を抽出する。
現在、コードインテリジェンスに重点を置く研究コミュニティは活発です。
論文 参考訳(メタデータ) (2023-12-30T17:48:37Z) - TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation [9.477734501499274]
コード埋め込みを対照的な学習方法で学習する新しいフレームワークであるTransformCodeを提案する。
我々のフレームワークはエンコーダに依存しない言語に依存しないので、どんなエンコーダモデルでも活用でき、どんなプログラミング言語でも扱える。
論文 参考訳(メタデータ) (2023-11-10T09:05:23Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - A Comparative Study of Code Generation using ChatGPT 3.5 across 10
Programming Languages [0.0]
LLM(Large Language Models)は、高度な人工知能(AI)システムである。
本研究では,2022年11月にOpenAIがリリースしたLLMであるChatGPT 3.5の符号化能力について検討する。
コードスニペットを作成する際のモデルのスキルは、10の異なるプログラミング言語と4つの異なるソフトウェアドメインで評価される。
論文 参考訳(メタデータ) (2023-08-08T15:02:32Z) - Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets [0.0]
この研究は、AI駆動のコードアシスタントを使用して、現代技術を形成する影響力のあるコンピュータコードの選択を分析する。
この研究の最初の貢献は、過去50年で最も重要なコードの進歩の半分を調査することであった。
論文 参考訳(メタデータ) (2023-01-05T23:17:17Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。