論文の概要: Enhancing Code Classification by Mixup-Based Data Augmentation
- arxiv url: http://arxiv.org/abs/2210.03003v1
- Date: Thu, 6 Oct 2022 15:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 17:19:46.257530
- Title: Enhancing Code Classification by Mixup-Based Data Augmentation
- Title(参考訳): Mixup-based data Augmentation によるコード分類の強化
- Authors: Zeming Dong, Qiang Hu, Yuejun Guo, Maxime Cordy, Mike Papadakis, Yves
Le Traon, and Jianjun Zhao
- Abstract要約: ソースコード分類タスクを強化するために、Mixupベースのデータ拡張手法、MixCodeを提案する。
2つのプログラミング言語(JAVAとPython)、2つのコードタスク(プロブレム分類とバグ検出)、4つのデータセット(JAVA250、Python800、CodRep1、Refactory)、5つのモデルアーキテクチャについてMixCodeを評価する。
- 参考スコア(独自算出の注目度): 16.49710700412084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep neural networks (DNNs) have been widely applied in programming
language understanding. Generally, training a DNN model with competitive
performance requires massive and high-quality labeled training data. However,
collecting and labeling such data is time-consuming and labor-intensive. To
tackle this issue, data augmentation has been a popular solution, which
delicately increases the training data size, e.g., adversarial example
generation. However, few works focus on employing it for programming
language-related tasks. In this paper, we propose a Mixup-based data
augmentation approach, MixCode, to enhance the source code classification task.
First, we utilize multiple code refactoring methods to generate
label-consistent code data. Second, the Mixup technique is employed to mix the
original code and transformed code to form the new training data to train the
model. We evaluate MixCode on two programming languages (JAVA and Python), two
code tasks (problem classification and bug detection), four datasets (JAVA250,
Python800, CodRep1, and Refactory), and 5 model architectures. Experimental
results demonstrate that MixCode outperforms the standard data augmentation
baseline by up to 6.24\% accuracy improvement and 26.06\% robustness
improvement.
- Abstract(参考訳): 近年、ディープニューラルネットワーク(DNN)はプログラミング言語理解に広く応用されている。
一般的に、DNNモデルを競争性能でトレーニングするには、大規模で高品質なラベル付きトレーニングデータが必要である。
しかし、そのようなデータの収集とラベル付けには時間と労力がかかる。
この問題に対処するため、データ拡張は一般的なソリューションであり、例えば逆例生成のようなトレーニングデータサイズを微妙に増加させる。
しかし、プログラミング言語関連のタスクにそれを使うことに焦点を当てる研究はほとんどない。
本稿では,mixupベースのデータ拡張手法であるmixcodeを提案する。
まず,複数のコードリファクタリング手法を用いてラベル一貫性のあるコードデータを生成する。
次に、元のコードと変換されたコードを混合して新しいトレーニングデータを作成し、モデルをトレーニングする。
2つのプログラミング言語(JAVAとPython)、2つのコードタスク(プロブレム分類とバグ検出)、4つのデータセット(JAVA250、Python800、CodRep1、Refactory)、5つのモデルアーキテクチャについてMixCodeを評価する。
実験の結果、MixCodeは標準データ拡張ベースラインを6.24\%の精度改善と26.06\%の堅牢性改善で上回っている。
関連論文リスト
- GenCode: A Generic Data Augmentation Framework for Boosting Deep Learning-Based Code Understanding [28.02426812004216]
我々は、コード理解モデルのトレーニングを強化するために、汎用データ拡張フレームワークGenCodeを導入する。
GenCodeの有効性を評価するため、4つのコード理解タスクと3つの事前学習されたコードモデルの実験を行った。
最先端(SOTA)のコード拡張手法であるMixCodeと比較すると、GenCodeは平均で2.92%高い精度と4.90%の堅牢性を持つコードモデルを生成する。
論文 参考訳(メタデータ) (2024-02-24T08:57:12Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - CCT5: A Code-Change-Oriented Pre-Trained Model [14.225942520238936]
我々は、ソフトウェアメンテナンスにおける開発者のサポートを改善するために、コード変更用に特別に設計されたモデルを事前訓練することを提案する。
まず、1.5M以上のコード変更とコミットメッセージのペアデータを含む大規模なデータセットを収集します。
トレーニング済みのモデルであるCCT5を、コードの変更とコードレビュープロセスに特有の2つのタスクによって引き起こされる3つの広範囲に分散したタスクで微調整する。
論文 参考訳(メタデータ) (2023-05-18T07:55:37Z) - Boosting Source Code Learning with Data Augmentation: An Empirical Study [16.49710700412084]
本研究では,もともとテキストやグラフに用いたデータ拡張手法が,ソースコード学習のトレーニング品質向上に有効かどうかを検討する。
この結果から,より正確でロバストなソースコード学習モデルを生成するデータ拡張手法が同定された。
論文 参考訳(メタデータ) (2023-03-13T01:47:05Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - XMixup: Efficient Transfer Learning with Auxiliary Samples by
Cross-domain Mixup [60.07531696857743]
クロスドメイン・ミックスアップ(XMixup)は、深層移動学習のためのマルチタスクパラダイムを改善する。
XMixupはソースデータセットから補助サンプルを選択し、単純なミックスアップ戦略を通じてトレーニングサンプルを拡張する。
実験の結果、XMixupは平均で1.9%精度が向上した。
論文 参考訳(メタデータ) (2020-07-20T16:42:29Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。