論文の概要: Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit
- arxiv url: http://arxiv.org/abs/2401.00288v1
- Date: Sat, 30 Dec 2023 17:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 18:06:51.713168
- Title: Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit
- Title(参考訳): コードインテリジェンスのためのディープラーニング - サーベイ、ベンチマーク、ツールキット
- Authors: Yao Wan, Yang He, Zhangqian Bi, Jianguo Zhang, Hongyu Zhang, Yulei
Sui, Guandong Xu, Hai Jin, Philip S. Yu
- Abstract要約: コードインテリジェンスは、機械学習技術を活用して、広範なコードコーパスから知識を抽出する。
現在、コードインテリジェンスに重点を置く研究コミュニティは活発です。
- 参考スコア(独自算出の注目度): 63.82016263181941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code intelligence leverages machine learning techniques to extract knowledge
from extensive code corpora, with the aim of developing intelligent tools to
improve the quality and productivity of computer programming. Currently, there
is already a thriving research community focusing on code intelligence, with
efforts ranging from software engineering, machine learning, data mining,
natural language processing, and programming languages. In this paper, we
conduct a comprehensive literature review on deep learning for code
intelligence, from the aspects of code representation learning, deep learning
techniques, and application tasks. We also benchmark several state-of-the-art
neural models for code intelligence, and provide an open-source toolkit
tailored for the rapid prototyping of deep-learning-based code intelligence
models. In particular, we inspect the existing code intelligence models under
the basis of code representation learning, and provide a comprehensive overview
to enhance comprehension of the present state of code intelligence.
Furthermore, we publicly release the source code and data resources to provide
the community with a ready-to-use benchmark, which can facilitate the
evaluation and comparison of existing and future code intelligence models
(https://xcodemind.github.io). At last, we also point out several challenging
and promising directions for future research.
- Abstract(参考訳): コードインテリジェンスは、コンピュータプログラミングの品質と生産性を改善するインテリジェントツールの開発を目的として、機械学習技術を活用して、広範なコードコーパスから知識を抽出する。
現在、ソフトウェア工学、機械学習、データマイニング、自然言語処理、プログラミング言語など、コードインテリジェンスに焦点を当てた活発な研究コミュニティがすでに存在しています。
本稿では,コード表現学習,ディープラーニング技術,アプリケーションタスクの観点から,コードインテリジェンスのためのディープラーニングに関する包括的な文献レビューを行う。
また、コードインテリジェンスのための最先端のニューラルモデルをいくつかベンチマークし、ディープラーニングベースのコードインテリジェンスモデルの迅速なプロトタイピングに適したオープンソースのツールキットを提供しています。
特に,コード表現学習に基づく既存のコードインテリジェンスモデルを検証し,コードインテリジェンスの現状の理解を深めるための包括的概要を提供する。
さらに、既存のコードインテリジェンスモデルと将来のコードインテリジェンスモデル(https://xcodemind.github.io.)の評価と比較を容易にするために、コミュニティに提供するためのソースコードとデータリソースも公開しています。
最終的には、今後の研究の挑戦的かつ有望な方向性についても指摘します。
関連論文リスト
- CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets [0.0]
この研究は、AI駆動のコードアシスタントを使用して、現代技術を形成する影響力のあるコンピュータコードの選択を分析する。
この研究の最初の貢献は、過去50年で最も重要なコードの進歩の半分を調査することであった。
論文 参考訳(メタデータ) (2023-01-05T23:17:17Z) - Adding Context to Source Code Representations for Deep Learning [13.676416860721877]
我々は、ディープラーニングモデルが分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると主張している。
本稿では,コード自体の情報とともに,コール階層からコンテキストを符号化することで,最先端のディープラーニングモデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-07-30T12:47:32Z) - Ten Quick Tips for Deep Learning in Biology [116.78436313026478]
機械学習は、データのパターンを認識し、予測モデリングに使用するアルゴリズムの開発と応用に関係している。
ディープラーニングは、独自の機械学習のサブフィールドになっている。
生物学的研究の文脈において、ディープラーニングは高次元の生物学的データから新しい洞察を導き出すためにますます使われてきた。
論文 参考訳(メタデータ) (2021-05-29T21:02:44Z) - Project CodeNet: A Large-Scale AI for Code Dataset for Learning a
Diversity of Coding Tasks [11.10732802304274]
Project CodeNetは、1400万のコードサンプルと55の異なるプログラミング言語で約5億行のコードで構成されている。
Project CodeNetは、その規模だけでなく、ベンチマークに役立つコーディングタスクの多様性にも特有である。
論文 参考訳(メタデータ) (2021-05-25T00:13:29Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z) - Machine Learning in Python: Main developments and technology trends in
data science, machine learning, and artificial intelligence [3.1314898234563295]
Pythonは科学計算、データサイエンス、機械学習において最も好まれる言語である。
この調査は、Pythonによる機械学習の分野に関する洞察を提供し、重要なトピックをツアーして、それを可能にしたコアハードウェアとソフトウェアパラダイムのいくつかを特定します。
論文 参考訳(メタデータ) (2020-02-12T05:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。