Fugu-MT 論文翻訳(概要): Enhancing Code Classification by Mixup-Based Data Augmentation

論文の概要: Enhancing Code Classification by Mixup-Based Data Augmentation

arxiv url: http://arxiv.org/abs/2210.03003v1
Date: Thu, 6 Oct 2022 15:47:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 17:19:46.257530
Title: Enhancing Code Classification by Mixup-Based Data Augmentation
Title（参考訳）: Mixup-based data Augmentation によるコード分類の強化
Authors: Zeming Dong, Qiang Hu, Yuejun Guo, Maxime Cordy, Mike Papadakis, Yves Le Traon, and Jianjun Zhao
Abstract要約: ソースコード分類タスクを強化するために、Mixupベースのデータ拡張手法、MixCodeを提案する。 2つのプログラミング言語(JAVAとPython)、2つのコードタスク(プロブレム分類とバグ検出)、4つのデータセット(JAVA250、Python800、CodRep1、Refactory)、5つのモデルアーキテクチャについてMixCodeを評価する。
参考スコア（独自算出の注目度）: 16.49710700412084
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, deep neural networks (DNNs) have been widely applied in programming language understanding. Generally, training a DNN model with competitive performance requires massive and high-quality labeled training data. However, collecting and labeling such data is time-consuming and labor-intensive. To tackle this issue, data augmentation has been a popular solution, which delicately increases the training data size, e.g., adversarial example generation. However, few works focus on employing it for programming language-related tasks. In this paper, we propose a Mixup-based data augmentation approach, MixCode, to enhance the source code classification task. First, we utilize multiple code refactoring methods to generate label-consistent code data. Second, the Mixup technique is employed to mix the original code and transformed code to form the new training data to train the model. We evaluate MixCode on two programming languages (JAVA and Python), two code tasks (problem classification and bug detection), four datasets (JAVA250, Python800, CodRep1, and Refactory), and 5 model architectures. Experimental results demonstrate that MixCode outperforms the standard data augmentation baseline by up to 6.24\% accuracy improvement and 26.06\% robustness improvement.
Abstract（参考訳）: 近年、ディープニューラルネットワーク(DNN)はプログラミング言語理解に広く応用されている。一般的に、DNNモデルを競争性能でトレーニングするには、大規模で高品質なラベル付きトレーニングデータが必要である。しかし、そのようなデータの収集とラベル付けには時間と労力がかかる。この問題に対処するため、データ拡張は一般的なソリューションであり、例えば逆例生成のようなトレーニングデータサイズを微妙に増加させる。しかし、プログラミング言語関連のタスクにそれを使うことに焦点を当てる研究はほとんどない。本稿では,mixupベースのデータ拡張手法であるmixcodeを提案する。まず,複数のコードリファクタリング手法を用いてラベル一貫性のあるコードデータを生成する。次に、元のコードと変換されたコードを混合して新しいトレーニングデータを作成し、モデルをトレーニングする。 2つのプログラミング言語(JAVAとPython)、2つのコードタスク(プロブレム分類とバグ検出)、4つのデータセット(JAVA250、Python800、CodRep1、Refactory)、5つのモデルアーキテクチャについてMixCodeを評価する。実験の結果、MixCodeは標準データ拡張ベースラインを6.24\%の精度改善と26.06\%の堅牢性改善で上回っている。

関連論文リスト

UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
CoRNStack: High-Quality Contrastive Data for Better Code Retrieval and Reranking [45.18877655831977]
CoRNStackは、複数のプログラミング言語にまたがるコードのための、大規模で高品質なコントラストトレーニングデータセットです。このデータセットは、ノイズ正の除去のために一貫性フィルタリングを用いてキュレートされ、さらに硬い負のマイニングによって濃縮される。我々は、CoRNStackを用いた埋め込みモデルの対照的なトレーニングが、様々なコード検索タスクにおける最先端のパフォーマンスをもたらすことを実証した。
論文参考訳（メタデータ） (2024-12-01T23:54:12Z)
GenCode: A Generic Data Augmentation Framework for Boosting Deep Learning-Based Code Understanding [28.02426812004216]
我々は、コード理解モデルのトレーニングを強化するために、汎用データ拡張フレームワークGenCodeを導入する。 GenCodeの有効性を評価するため、4つのコード理解タスクと3つの事前学習されたコードモデルの実験を行った。最先端(SOTA)のコード拡張手法であるMixCodeと比較すると、GenCodeは平均で2.92%高い精度と4.90%の堅牢性を持つコードモデルを生成する。
論文参考訳（メタデータ） (2024-02-24T08:57:12Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
CCT5: A Code-Change-Oriented Pre-Trained Model [14.225942520238936]
我々は、ソフトウェアメンテナンスにおける開発者のサポートを改善するために、コード変更用に特別に設計されたモデルを事前訓練することを提案する。まず、1.5M以上のコード変更とコミットメッセージのペアデータを含む大規模なデータセットを収集します。トレーニング済みのモデルであるCCT5を、コードの変更とコードレビュープロセスに特有の2つのタスクによって引き起こされる3つの広範囲に分散したタスクで微調整する。
論文参考訳（メタデータ） (2023-05-18T07:55:37Z)
Boosting Source Code Learning with Data Augmentation: An Empirical Study [16.49710700412084]
本研究では,もともとテキストやグラフに用いたデータ拡張手法が,ソースコード学習のトレーニング品質向上に有効かどうかを検討する。この結果から,より正確でロバストなソースコード学習モデルを生成するデータ拡張手法が同定された。
論文参考訳（メタデータ） (2023-03-13T01:47:05Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文参考訳（メタデータ） (2021-04-01T13:55:21Z)
Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。本稿では,自然言語処理タスクにmixupを適用する方法について検討する。我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文参考訳（メタデータ） (2020-10-05T23:37:30Z)
XMixup: Efficient Transfer Learning with Auxiliary Samples by Cross-domain Mixup [60.07531696857743]
クロスドメイン・ミックスアップ(XMixup)は、深層移動学習のためのマルチタスクパラダイムを改善する。 XMixupはソースデータセットから補助サンプルを選択し、単純なミックスアップ戦略を通じてトレーニングサンプルを拡張する。実験の結果、XMixupは平均で1.9%精度が向上した。
論文参考訳（メタデータ） (2020-07-20T16:42:29Z)
Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。自動エンコーダのコンテキストでデコードすることで更新される。ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文参考訳（メタデータ） (2020-02-27T05:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。