論文の概要: JaCoText: A Pretrained Model for Java Code-Text Generation
- arxiv url: http://arxiv.org/abs/2303.12869v1
- Date: Wed, 22 Mar 2023 19:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 16:37:24.450097
- Title: JaCoText: A Pretrained Model for Java Code-Text Generation
- Title(参考訳): jacotext: javaコードテキスト生成のための事前学習モデル
- Authors: Jessica L\'opez Espejel, Mahaman Sanoussi Yahaya Alassan, Walid
Dahhane, El Hassane Ettifouri
- Abstract要約: 本稿では,トランスフォーマーニューラルネットワークに基づくモデルであるJaCoTextを紹介する。
自然言語テキストからJavaソースコードを生成することを目的としている。
CONCODEデータセットの実験は、JaCoTextが新しい最先端の結果を達成することを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pretrained transformer-based models have shown high performance in natural
language generation task. However, a new wave of interest has surged: automatic
programming language generation. This task consists of translating natural
language instructions to a programming code. Despite the fact that well-known
pretrained models on language generation have achieved good performance in
learning programming languages, effort is still needed in automatic code
generation. In this paper, we introduce JaCoText, a model based on Transformers
neural network. It aims to generate java source code from natural language
text. JaCoText leverages advantages of both natural language and code
generation models. More specifically, we study some findings from the state of
the art and use them to (1) initialize our model from powerful pretrained
models, (2) explore additional pretraining on our java dataset, (3) carry out
experiments combining the unimodal and bimodal data in the training, and (4)
scale the input and output length during the fine-tuning of the model.
Conducted experiments on CONCODE dataset show that JaCoText achieves new
state-of-the-art results.
- Abstract(参考訳): 事前訓練されたトランスフォーマーベースモデルは、自然言語生成タスクにおいて高い性能を示している。
しかし、新しい関心の波が急増した:自動プログラミング言語生成。
このタスクは、自然言語命令をプログラミング言語に翻訳する。
言語生成に関するよく知られた事前訓練モデルが、プログラミング言語の学習において優れたパフォーマンスを達成したにもかかわらず、自動コード生成には依然として努力が必要である。
本稿では,トランスフォーマーニューラルネットワークに基づくモデルであるJaCoTextを紹介する。
自然言語テキストからJavaソースコードを生成することを目的としている。
JaCoTextは自然言語とコード生成モデルの利点を利用する。
具体的には,(1)強力な事前学習モデルからモデルの初期化,(2)javaデータセットのさらなる事前トレーニング,(3)トレーニングにおけるユニモーダルデータとバイモーダルデータを組み合わせた実験,(4)モデルの微調整時の入出力長のスケールアップ,など,技術の現状から得られた知見について検討した。
CONCODEデータセットで実施された実験では、JaCoTextが新しい最先端の結果を達成することが示された。
関連論文リスト
- A Comprehensive Review of State-of-The-Art Methods for Java Code
Generation from Natural Language Text [0.0]
本稿では,Javaコード生成タスクにおけるディープラーニングモデルの進化と進展を概観する。
我々は,最も重要な手法に焦点を合わせ,そのメリットと限界,およびコミュニティが使用する目的的機能を示す。
論文 参考訳(メタデータ) (2023-06-10T07:27:51Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - NatGen: Generative pre-training by "Naturalizing" source code [18.410818213965918]
我々は,ソースコードの「成熟化」という新たな事前学習目標を提案する。
自然言語とは異なり、コードのバイモーダルでデュアルチャネルの性質により、意味論的に等価なコードを大規模に生成することができます。
私たちは、CodeT5に匹敵する最先端のパフォーマンスを達成するために、3つの生成ソフトウェアエンジニアリングタスクでモデルを微調整します。
論文 参考訳(メタデータ) (2022-06-15T15:08:29Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - JavaBERT: Training a transformer-based model for the Java programming
language [1.599072005190786]
ソフトウェアコードのためのデータ検索パイプラインを導入し,Javaソフトウェアコード上でモデルをトレーニングする。
得られたモデルであるJavaBERTは、マスキングされた言語モデリングタスクに対して高い精度を示す。
論文 参考訳(メタデータ) (2021-10-20T06:49:41Z) - Automatic Code Generation using Pre-Trained Language Models [0.0]
学習済み言語モデルの上に構築されたPython言語におけるコード生成のためのエンドツーエンドの機械学習モデルを提案する。
本研究では,BLEUスコア0.22を達成し,適切なシーケンス・ツー・シーケンスベースラインよりも46%向上した,微調整モデルがコード生成タスクで良好に動作できることを実証する。
論文 参考訳(メタデータ) (2021-02-21T07:21:26Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space [109.79957125584252]
変分オートエンコーダ(VAE)は、強力な生成モデルであり、自然言語の効果的な表現学習フレームワークである。
本稿では,最初の大規模言語VAEモデルであるOptimusを提案する。
論文 参考訳(メタデータ) (2020-04-05T06:20:18Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。