論文の概要: Source Code Data Augmentation for Deep Learning: A Survey
- arxiv url: http://arxiv.org/abs/2305.19915v4
- Date: Mon, 13 Nov 2023 17:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:42:12.210621
- Title: Source Code Data Augmentation for Deep Learning: A Survey
- Title(参考訳): ディープラーニングのためのソースコードデータ拡張に関する調査
- Authors: Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li, Xiaoning Du,
Zhenchang Xing, David Lo
- Abstract要約: ソースコードに対するデータ拡張に関する包括的調査を行う。
DAの品質を最適化するための一般的な戦略とテクニックを強調します。
今後の研究の課題と可能性について概説する。
- 参考スコア(独自算出の注目度): 32.035973285175075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasingly popular adoption of deep learning models in many critical
source code tasks motivates the development of data augmentation (DA)
techniques to enhance training data and improve various capabilities (e.g.,
robustness and generalizability) of these models. Although a series of DA
methods have been proposed and tailored for source code models, there lacks a
comprehensive survey and examination to understand their effectiveness and
implications. This paper fills this gap by conducting a comprehensive and
integrative survey of data augmentation for source code, wherein we
systematically compile and encapsulate existing literature to provide a
comprehensive overview of the field. We start with an introduction of data
augmentation in source code and then provide a discussion on major
representative approaches. Next, we highlight the general strategies and
techniques to optimize the DA quality. Subsequently, we underscore techniques
useful in real-world source code scenarios and downstream tasks. Finally, we
outline the prevailing challenges and potential opportunities for future
research. In essence, we aim to demystify the corpus of existing literature on
source code DA for deep learning, and foster further exploration in this
sphere. Complementing this, we present a continually updated GitHub repository
that hosts a list of update-to-date papers on DA for source code modeling,
accessible at \url{https://github.com/terryyz/DataAug4Code}.
- Abstract(参考訳): 多くの重要なソースコードタスクにおけるディープラーニングモデルの採用は、トレーニングデータを強化し、これらのモデルの様々な機能(堅牢性や一般化可能性など)を改善するためのデータ拡張(DA)技術の開発を動機付けている。
一連のdaメソッドが提案され、ソースコードモデル用に調整されているが、その効果と影響を理解するための包括的な調査と調査が欠けている。
本稿では,既存の文献を体系的にコンパイル・カプセル化し,その分野の包括的概要を提供するため,ソースコードのデータ拡張に関する包括的かつ統合的な調査を行うことで,このギャップを埋める。
まず、ソースコードにおけるデータ拡張の導入から始め、主要な代表的アプローチについて議論する。
次に、da品質を最適化するための一般的な戦略とテクニックを紹介します。
続いて、実世界のソースコードシナリオや下流タスクで有用な技術を評価する。
最後に,今後の研究の課題と可能性について概説する。
基本的に,既存の文献のコーパスを深層学習のためのソースコードDAでデミスティフィケーションし,この領域におけるさらなる探索を促進することを目的としている。
補完として、ソースコードモデリングのためのDAの更新最新文書のリストをホストする、継続的に更新されたGitHubリポジトリを、 \url{https://github.com/terryyz/DataAug4Code}で公開します。
関連論文リスト
- Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Data Optimization in Deep Learning: A Survey [3.1274367448459253]
本研究の目的は,ディープラーニングのための様々なデータ最適化手法を整理することである。
構築された分類学は分割次元の多様性を考慮し、各次元に深いサブタコノミが構築される。
構築された分類学と明らかにされた接続は、既存の手法のより良い理解と、新しいデータ最適化手法の設計を啓蒙する。
論文 参考訳(メタデータ) (2023-10-25T09:33:57Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - Boosting Source Code Learning with Data Augmentation: An Empirical Study [16.49710700412084]
本研究では,もともとテキストやグラフに用いたデータ拡張手法が,ソースコード学習のトレーニング品質向上に有効かどうかを検討する。
この結果から,より正確でロバストなソースコード学習モデルを生成するデータ拡張手法が同定された。
論文 参考訳(メタデータ) (2023-03-13T01:47:05Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-10-21T22:47:37Z) - Adding Context to Source Code Representations for Deep Learning [13.676416860721877]
我々は、ディープラーニングモデルが分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると主張している。
本稿では,コード自体の情報とともに,コール階層からコンテキストを符号化することで,最先端のディープラーニングモデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-07-30T12:47:32Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。