論文の概要: Data Augmentation Approaches for Source Code Models: A Survey
- arxiv url: http://arxiv.org/abs/2305.19915v1
- Date: Wed, 31 May 2023 14:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 15:50:13.921793
- Title: Data Augmentation Approaches for Source Code Models: A Survey
- Title(参考訳): ソースコードモデルのためのデータ拡張アプローチ:調査
- Authors: Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li, Xiaoning Du,
Zhenchang Xing, David Lo
- Abstract要約: ソースコードモデルに対するデータ拡張に関する包括的調査を行う。
DAの品質を最適化するための一般的な戦略とテクニックを強調します。
今後の研究の課題と可能性について概説する。
- 参考スコア(独自算出の注目度): 21.858738786095785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasingly popular adoption of source code in many critical tasks
motivates the development of data augmentation (DA) techniques to enhance
training data and improve various capabilities (e.g., robustness and
generalizability) of these models. Although a series of DA methods have been
proposed and tailored for source code models, there lacks a comprehensive
survey and examination to understand their effectiveness and implications. This
paper fills this gap by conducting a comprehensive and integrative survey of
data augmentation for source code, wherein we systematically compile and
encapsulate existing literature to provide a comprehensive overview of the
field. We start by constructing a taxonomy of DA for source code models model
approaches, followed by a discussion on prominent, methodologically
illustrative approaches. Next, we highlight the general strategies and
techniques to optimize the DA quality. Subsequently, we underscore techniques
that find utility in widely-accepted source code scenarios and downstream
tasks. Finally, we outline the prevailing challenges and potential
opportunities for future research. In essence, this paper endeavors to
demystify the corpus of existing literature on DA for source code models, and
foster further exploration in this sphere. Complementing this, we present a
continually updated GitHub repository that hosts a list of update-to-date
papers on DA for source code models, accessible at
\url{https://github.com/terryyz/DataAug4Code}.
- Abstract(参考訳): 多くの重要なタスクにおけるソースコードの採用が増加し、トレーニングデータを強化し、これらのモデルの様々な機能(堅牢性や一般化可能性)を改善するためのデータ拡張(DA)技術の開発が動機となっている。
一連のdaメソッドが提案され、ソースコードモデル用に調整されているが、その効果と影響を理解するための包括的な調査と調査が欠けている。
本稿では,既存の文献を体系的にコンパイル・カプセル化し,その分野の包括的概要を提供するため,ソースコードのデータ拡張に関する包括的かつ統合的な調査を行うことで,このギャップを埋める。
まず、ソースコードモデルモデルアプローチのためのDAの分類を構築し、続いて、著名な方法論的実証的アプローチについて議論する。
次に、da品質を最適化するための一般的な戦略とテクニックを紹介します。
その後、広く受け入れられたソースコードのシナリオやダウンストリームタスクで有用性を見出す手法の基盤となる。
最後に,今後の研究の課題と可能性について概説する。
本論文は, ソースコードモデルのための既存のda文献のコーパスを非神秘化し, この領域におけるさらなる探索を促進することを目的としている。
補完として、ソースコードモデルに関するDAの更新最新文書のリストをホストする、継続的に更新されたGitHubレポジトリを、 \url{https://github.com/terryyz/DataAug4Code}で公開します。
関連論文リスト
- Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。
RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。
この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文 参考訳(メタデータ) (2024-10-21T12:21:49Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Data Optimization in Deep Learning: A Survey [3.1274367448459253]
本研究の目的は,ディープラーニングのための様々なデータ最適化手法を整理することである。
構築された分類学は分割次元の多様性を考慮し、各次元に深いサブタコノミが構築される。
構築された分類学と明らかにされた接続は、既存の手法のより良い理解と、新しいデータ最適化手法の設計を啓蒙する。
論文 参考訳(メタデータ) (2023-10-25T09:33:57Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - Boosting Source Code Learning with Data Augmentation: An Empirical Study [16.49710700412084]
本研究では,もともとテキストやグラフに用いたデータ拡張手法が,ソースコード学習のトレーニング品質向上に有効かどうかを検討する。
この結果から,より正確でロバストなソースコード学習モデルを生成するデータ拡張手法が同定された。
論文 参考訳(メタデータ) (2023-03-13T01:47:05Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-10-21T22:47:37Z) - Adding Context to Source Code Representations for Deep Learning [13.676416860721877]
我々は、ディープラーニングモデルが分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると主張している。
本稿では,コード自体の情報とともに,コール階層からコンテキストを符号化することで,最先端のディープラーニングモデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-07-30T12:47:32Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。