論文の概要: Incorporating Domain Knowledge through Task Augmentation for Front-End
JavaScript Code Generation
- arxiv url: http://arxiv.org/abs/2208.10091v1
- Date: Mon, 22 Aug 2022 06:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:58:08.242381
- Title: Incorporating Domain Knowledge through Task Augmentation for Front-End
JavaScript Code Generation
- Title(参考訳): フロントエンドJavaScriptコード生成のためのタスク拡張によるドメイン知識の取り込み
- Authors: Sijie Shen, Xiang Zhu, Yihong Dong, Qizhi Guo, Yankun Zhen, Ge Li
- Abstract要約: ドメイン固有のシナリオでは、直接利用可能なペアデータがないため、コード生成のためにこのような大きなペアコーパスを構築するのは難しい。
本稿では,補助タスクとSubtoken-TranXモデルを用いて,ドメイン知識をコード生成モデルに組み込むタスク拡張手法を提案する。
実験の結果,サブトークンレベルのTranXモデルは,データセット上でのTranXモデルとTransformerモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 10.75138604869187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code generation aims to generate a code snippet automatically from natural
language descriptions. Generally, the mainstream code generation methods rely
on a large amount of paired training data, including both the natural language
description and the code. However, in some domain-specific scenarios, building
such a large paired corpus for code generation is difficult because there is no
directly available pairing data, and a lot of effort is required to manually
write the code descriptions to construct a high-quality training dataset. Due
to the limited training data, the generation model cannot be well trained and
is likely to be overfitting, making the model's performance unsatisfactory for
real-world use. To this end, in this paper, we propose a task augmentation
method that incorporates domain knowledge into code generation models through
auxiliary tasks and a Subtoken-TranX model by extending the original TranX
model to support subtoken-level code generation. To verify our proposed
approach, we collect a real-world code generation dataset and conduct
experiments on it. Our experimental results demonstrate that the subtoken-level
TranX model outperforms the original TranX model and the Transformer model on
our dataset, and the exact match accuracy of Subtoken-TranX improves
significantly by 12.75\% with the help of our task augmentation method. The
model performance on several code categories has satisfied the requirements for
application in industrial systems. Our proposed approach has been adopted by
Alibaba's \emph{BizCook} platform. To the best of our knowledge, this is the
first domain code generation system adopted in industrial development
environments.
- Abstract(参考訳): コード生成は、自然言語記述からコードスニペットを自動的に生成することを目的としている。
一般的に、主流のコード生成方法は、自然言語記述とコードの両方を含む大量のペアトレーニングデータに依存している。
しかし、ドメイン固有のシナリオでは、コード生成のためのこのような大きなペアリングコーパスの構築は、直接利用可能なペアリングデータがなく、高品質なトレーニングデータセットを構築するためにコード記述を手作業で書くことが必要となるため、難しい。
限られたトレーニングデータのため、生成モデルは十分に訓練されておらず、過度に適合する可能性が高いため、実際の使用には不満足である。
そこで本稿では,従来のtranxモデルを拡張してsubtokenレベルのコード生成をサポートすることで,補助タスクとsubtoken-tranxモデルを通じて,コード生成モデルにドメイン知識を組み込むタスク拡張手法を提案する。
提案手法を検証するため,実世界のコード生成データセットを収集し,実験を行う。
実験の結果,我々のデータセットでは,subtoken-level tranxモデルがオリジナルのtranxモデルとtransformerモデルよりも優れており,subtoken-tranxの正確なマッチング精度はタスク拡張法により12.75\%向上した。
いくつかのコードカテゴリにおけるモデル性能は、産業システムにおける適用要件を満たしている。
提案手法はalibabaの \emph{bizcook}プラットフォームで採用されている。
私たちの知る限りでは、これは産業開発環境で採用される最初のドメインコード生成システムです。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Better Language Models of Code through Self-Improvement [18.75015225501755]
コードのための事前学習言語モデル(PLMC)のための単純なデータ拡張フレームワークを提案する。
本フレームワークは,事前学習と微調整の段階で得られた知識を利用して擬似データを生成し,次のステップのトレーニングデータとして利用する。
その結果,コード関連シーケンス生成タスクにおいて,PLMCの性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-02T10:59:19Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - NatGen: Generative pre-training by "Naturalizing" source code [18.410818213965918]
我々は,ソースコードの「成熟化」という新たな事前学習目標を提案する。
自然言語とは異なり、コードのバイモーダルでデュアルチャネルの性質により、意味論的に等価なコードを大規模に生成することができます。
私たちは、CodeT5に匹敵する最先端のパフォーマンスを達成するために、3つの生成ソフトウェアエンジニアリングタスクでモデルを微調整します。
論文 参考訳(メタデータ) (2022-06-15T15:08:29Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。