Fugu-MT 論文翻訳(概要): Boosting Source Code Learning with Text-Oriented Data Augmentation: An Empirical Study

論文の概要: Boosting Source Code Learning with Text-Oriented Data Augmentation: An Empirical Study

arxiv url: http://arxiv.org/abs/2303.06808v2
Date: Thu, 06 Feb 2025 09:34:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 17:39:24.33918
Title: Boosting Source Code Learning with Text-Oriented Data Augmentation: An Empirical Study
Title（参考訳）: テキスト指向データ拡張によるソースコード学習の促進:実証的研究
Authors: Zeming Dong, Qiang Hu, Yuejun Guo, Zhenya Zhang, Maxime Cordy, Mike Papadakis, Yves Le Traon, Jianjun Zhao,
Abstract要約: そこで本研究では,自然言語テキストを対象としたデータ拡張手法の有効性について検討する。以上の結果から,より正確で堅牢なソースコード学習モデルを実現する具体的なデータ拡張手法が明らかとなった。
参考スコア（独自算出の注目度）: 20.812886172494082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies have demonstrated remarkable advancements in source code learning, which applies deep neural networks (DNNs) to tackle various software engineering tasks. Similar to other DNN-based domains, source code learning also requires massive high-quality training data to achieve the success of these applications. Data augmentation, a technique used to produce additional training data, is widely adopted in other domains (e.g. computer vision). However, the existing practice of data augmentation in source code learning is limited to simple syntax-preserved methods, such as code refactoring. In this paper, considering that source code can also be represented as text data, we take an early step to investigate the effectiveness of data augmentation methods originally designed for natural language texts in the context of source code learning. To this end, we focus on code classification tasks and conduct a comprehensive empirical study across four critical code problems and four DNN architectures to assess the effectiveness of 25 data augmentation methods. Our results reveal specific data augmentation methods that yield more accurate and robust models for source code learning. Additionally, we discover that the data augmentation methods remain beneficial even when they slightly break source code syntax.
Abstract（参考訳）: 近年の研究では、様々なソフトウェアエンジニアリングタスクに取り組むためにディープニューラルネットワーク(DNN)を適用したソースコード学習の顕著な進歩が示されている。他のDNNベースのドメインと同様に、ソースコード学習はこれらのアプリケーションの成功を達成するために大量の高品質なトレーニングデータを必要とする。データ拡張(Data Augmentation)は、追加のトレーニングデータを生成する技術であり、他の領域(例えばコンピュータビジョン)で広く採用されている。しかし、ソースコード学習における既存のデータ拡張の実践は、コードリファクタリングのような単純な構文保存メソッドに限られている。本稿では、ソースコードをテキストデータとして表現することも可能であることを考慮し、ソースコード学習の文脈において、もともと自然言語テキスト用に設計されたデータ拡張手法の有効性について検討する。この目的のために、コード分類タスクに重点を置いて、4つの重要なコード問題と4つのDNNアーキテクチャにまたがる総合的な実証的研究を行い、25個のデータ拡張手法の有効性を評価する。以上の結果から,より正確でロバストなソースコード学習モデルを実現する具体的なデータ拡張手法が明らかとなった。さらに、ソースコードの構文を少し壊しても、データ拡張メソッドが有益であることに気付きました。

関連論文リスト

An Effective Approach to Embedding Source Code by Combining Large Language and Sentence Embedding Models [6.976968804436321]
本稿では,大言語と文埋め込みモデルを組み合わせた新しいソースコード埋め込み手法を提案する。提案手法の性能を評価するため,異なるプログラミング言語を用いた3つのデータセットについて一連の実験を行った。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文参考訳（メタデータ） (2024-09-20T14:49:51Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
Enhancing Source Code Representations for Deep Learning with Static Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文参考訳（メタデータ） (2024-02-14T20:17:04Z)
Source Code Data Augmentation for Deep Learning: A Survey [32.035973285175075]
ソースコードに対するデータ拡張に関する包括的調査を行う。 DAの品質を最適化するための一般的な戦略とテクニックを強調します。今後の研究の課題と可能性について概説する。
論文参考訳（メタデータ） (2023-05-31T14:47:44Z)
Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文参考訳（メタデータ） (2022-10-21T22:47:37Z)
Adding Context to Source Code Representations for Deep Learning [13.676416860721877]
我々は、ディープラーニングモデルが分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると主張している。本稿では,コード自体の情報とともに,コール階層からコンテキストを符号化することで,最先端のディープラーニングモデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-07-30T12:47:32Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文参考訳（メタデータ） (2020-04-06T17:36:42Z)
Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。自動エンコーダのコンテキストでデコードすることで更新される。ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文参考訳（メタデータ） (2020-02-27T05:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。