論文の概要: CoDesc: A Large Code-Description Parallel Dataset
- arxiv url: http://arxiv.org/abs/2105.14220v1
- Date: Sat, 29 May 2021 05:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:50:00.250078
- Title: CoDesc: A Large Code-Description Parallel Dataset
- Title(参考訳): CoDesc: 大規模なコード記述並列データセット
- Authors: Masum Hasan, Tanveer Muttaqueen, Abdullah Al Ishtiaq, Kazi Sajeed
Mehrab, Md. Mahim Anjum Haque, Tahmid Hasan, Wasi Uddin Ahmad, Anindya Iqbal,
Rifat Shahriyar
- Abstract要約: CoDescは420万のJavaメソッドと自然言語記述からなる大規模な並列データセットです。
広範囲な分析により、データセットから一般的なノイズパターンを特定し、削除する。
このデータセットは、コード検索を最大22%改善し、コード要約における新しい最先端を実現するのに役立ちます。
- 参考スコア(独自算出の注目度): 4.828053113572208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translation between natural language and source code can help software
development by enabling developers to comprehend, ideate, search, and write
computer programs in natural language. Despite growing interest from the
industry and the research community, this task is often difficult due to the
lack of large standard datasets suitable for training deep neural models,
standard noise removal methods, and evaluation benchmarks. This leaves
researchers to collect new small-scale datasets, resulting in inconsistencies
across published works. In this study, we present CoDesc -- a large parallel
dataset composed of 4.2 million Java methods and natural language descriptions.
With extensive analysis, we identify and remove prevailing noise patterns from
the dataset. We demonstrate the proficiency of CoDesc in two complementary
tasks for code-description pairs: code summarization and code search. We show
that the dataset helps improve code search by up to 22\% and achieves the new
state-of-the-art in code summarization. Furthermore, we show CoDesc's
effectiveness in pre-training--fine-tuning setup, opening possibilities in
building pretrained language models for Java. To facilitate future research, we
release the dataset, a data processing tool, and a benchmark at
\url{https://github.com/csebuetnlp/CoDesc}.
- Abstract(参考訳): 自然言語とソースコードの翻訳は、開発者が自然言語でコンピュータプログラムを理解、考案、検索、記述できるようにすることで、ソフトウェア開発に役立つ。
業界や研究コミュニティからの関心が高まっているにもかかわらず、ディープニューラルネットワークモデルのトレーニングや標準ノイズ除去方法、評価ベンチマークに適した大きな標準データセットがないため、このタスクは難しいことが多い。
これにより、研究者は新しい小さなデータセットを収集し、その結果、出版された作品間で矛盾が生じます。
本研究では,420万のJavaメソッドと自然言語記述からなる大規模並列データセットであるCoDescを提案する。
広範な分析によって、データセットから一般的なノイズパターンを識別し、除去する。
コード記述ペアに対する2つの補完的なタスクとして,コード要約とコード検索を行う。
このデータセットは、コード検索を最大22\%改善し、コード要約における新たな最先端を実現する。
さらに,CoDescが事前トレーニング,微調整,Javaの事前トレーニング言語モデル構築に有効であることを示す。
今後の研究を容易にするために、データセット、データ処理ツール、およびベンチマークを \url{https://github.com/csebuetnlp/CoDesc} でリリースする。
関連論文リスト
- Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - Constructing Multilingual Code Search Dataset Using Neural Machine
Translation [48.32329232202801]
我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。
その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
論文 参考訳(メタデータ) (2023-06-27T16:42:36Z) - The Vault: A Comprehensive Multilingual Dataset for Advancing Code
Understanding and Generation [5.2510537676167335]
複数のプログラミング言語における高品質なコードテキストペアのデータセットであるThe Vaultを提示する。
我々の評価では、The Vault上でコード大言語モデルを微調整すると、このようなモデルはCodeSearchNetのような他のデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-09T09:35:03Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence [9.673614921946932]
本稿では,言語間コードインテリジェンスのための新しいベンチマークデータセットであるXLCoST, Cross-Lingual Code SnippeTデータセットを紹介する。
データセットには8言語からの詳細な並列データが含まれており、10の言語間コードタスクをサポートしている。
論文 参考訳(メタデータ) (2022-06-16T22:49:39Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z) - Leveraging Code Generation to Improve Code Retrieval and Summarization
via Dual Learning [18.354352985591305]
コード要約は、ソースコードスニペットが与えられた短い自然言語記述を生成し、コード検索は、自然言語クエリが与えられた関連するソースコードを取得する。
最近の研究は、これらの2つのタスクを組み合わせてパフォーマンスを改善している。
本稿では,新たなコード生成タスクを導入することによって,2つのタスクのエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2020-02-24T12:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。