論文の概要: Exploring Data Augmentation for Code Generation Tasks
- arxiv url: http://arxiv.org/abs/2302.03499v1
- Date: Sun, 5 Feb 2023 14:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:04:45.346082
- Title: Exploring Data Augmentation for Code Generation Tasks
- Title(参考訳): コード生成タスクのためのデータ拡張の探索
- Authors: Pinzhen Chen and Gerasimos Lampouras
- Abstract要約: コード翻訳と要約の一貫性を最大6.9%と7.5%向上させる拡張手法を提案する。
また、テストデータの欠陥についても論じる。
- 参考スコア(独自算出の注目度): 6.031587388000333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in natural language processing, such as transfer learning from
pre-trained language models, have impacted how models are trained for
programming language tasks too. Previous research primarily explored code
pre-training and expanded it through multi-modality and multi-tasking, yet the
data for downstream tasks remain modest in size. Focusing on data utilization
for downstream tasks, we propose and adapt augmentation methods that yield
consistent improvements in code translation and summarization by up to 6.9% and
7.5% respectively. Further analysis suggests that our methods work orthogonally
and show benefits in output code style and numeric consistency. We also discuss
test data imperfections.
- Abstract(参考訳): 自然言語処理の進歩、例えば事前学習された言語モデルからのトランスファー学習は、プログラミング言語タスクのためのモデルのトレーニング方法にも影響を与えている。
これまでの研究は主にコードの事前学習を探求し、マルチモダリティとマルチタスクを通じて拡張していたが、ダウンストリームタスクのデータのサイズは依然として控えめである。
ダウンストリームタスクにおけるデータ利用に着目し,コード翻訳と要約の一貫性をそれぞれ6.9%,7.5%向上させる拡張手法を提案し,適用する。
さらに分析した結果,本手法は直交的に動作し,出力コードスタイルと数値一貫性の利点を示すことが示唆された。
また、テストデータの欠陥についても論じる。
関連論文リスト
- How Does Code Pretraining Affect Language Model Task Performance? [26.660681317413108]
自然言語とコードをインターリーブするデータセット上で、言語モデルを事前訓練する。
高い割合のコードで事前学習を行うことで、構成タスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2024-09-06T18:33:38Z) - Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data [13.587157318352869]
本稿では,並列データに対して,事前学習された大規模言語モデルを継続的に事前学習する2相学習手法を提案する。
日本語と英語と日本語の13種類のテストセットを用いて,これらの手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:23:36Z) - Curricular Transfer Learning for Sentence Encoded Tasks [0.0]
本稿では「データハッキング」と文法解析によって導かれる事前学習の手順を提案する。
実験では,MultiWoZタスクの事前学習手法と比較して,提案手法からかなりの改善が得られた。
論文 参考訳(メタデータ) (2023-08-03T16:18:19Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - Recent Advances in Natural Language Processing via Large Pre-Trained
Language Models: A Survey [67.82942975834924]
BERTのような大規模で事前訓練された言語モデルは、自然言語処理(NLP)の分野を大きく変えた。
本稿では,これらの大規模言語モデルを用いたNLPタスクの事前学習,微調整,プロンプト,テキスト生成といった手法を用いた最近の研究について紹介する。
論文 参考訳(メタデータ) (2021-11-01T20:08:05Z) - ProtoDA: Efficient Transfer Learning for Few-Shot Intent Classification [21.933876113300897]
我々は,メタラーニングパラダイムの下で,原型ネットワークを用いた関連するタスクのアンサンブル上での伝達学習による代替的アプローチを採用する。
本研究は,意図分類を事例として,学習課題における多様性の増大が,分類性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-01-28T00:19:13Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。