論文の概要: JavaBERT: Training a transformer-based model for the Java programming
language
- arxiv url: http://arxiv.org/abs/2110.10404v1
- Date: Wed, 20 Oct 2021 06:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 18:22:16.828354
- Title: JavaBERT: Training a transformer-based model for the Java programming
language
- Title(参考訳): JavaBERT: Javaプログラミング言語のためのトランスフォーマーベースのモデルをトレーニングする
- Authors: Nelson Tavares de Sousa, Wilhelm Hasselbring
- Abstract要約: ソフトウェアコードのためのデータ検索パイプラインを導入し,Javaソフトウェアコード上でモデルをトレーニングする。
得られたモデルであるJavaBERTは、マスキングされた言語モデリングタスクに対して高い精度を示す。
- 参考スコア(独自算出の注目度): 1.599072005190786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code quality is and will be a crucial factor while developing new software
code, requiring appropriate tools to ensure functional and reliable code.
Machine learning techniques are still rarely used for software engineering
tools, missing out the potential benefits of its application. Natural language
processing has shown the potential to process text data regarding a variety of
tasks. We argue, that such models can also show similar benefits for software
code processing. In this paper, we investigate how models used for natural
language processing can be trained upon software code. We introduce a data
retrieval pipeline for software code and train a model upon Java software code.
The resulting model, JavaBERT, shows a high accuracy on the masked language
modeling task showing its potential for software engineering tools.
- Abstract(参考訳): コード品質は、新しいソフトウェアコードの開発において重要な要素であり、機能的で信頼性の高いコードを確保するために適切なツールを必要とする。
機械学習の技術は、ソフトウェアエンジニアリングツールにはまだ使われず、アプリケーションの潜在的な利点を欠いている。
自然言語処理は、様々なタスクに関するテキストデータを処理できる可能性を示している。
このようなモデルは、ソフトウェアコード処理にも同様のメリットがある、と私たちは主張する。
本稿では,自然言語処理に使用されるモデルをソフトウェアコードで学習する方法を検討する。
ソフトウェアコードのためのデータ検索パイプラインを導入し,Javaソフトウェアコード上でモデルをトレーニングする。
結果として得られたモデルであるJavaBERTは、ソフトウェア工学ツールの可能性を示すマスク付き言語モデリングタスクに対して高い精度を示している。
関連論文リスト
- CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Enhancing Automated Program Repair through Fine-tuning and Prompt
Engineering [2.3826139428423576]
シーケンス・ツー・シーケンスのモデルは、十分に大規模なデータセットでトレーニングされた時に、誤ったプログラムを正しいプログラムに変換するために使われてきた。
いくつかの最近の研究は、コードレビューがプログラムの修復をさらに改善できるという強い実証的な証拠を示した。
PLとNLの本質的な知識が,プログラムの自動修復の改善に有効かどうかを検討する。
論文 参考訳(メタデータ) (2023-04-16T17:29:51Z) - JaCoText: A Pretrained Model for Java Code-Text Generation [0.0]
本稿では,トランスフォーマーニューラルネットワークに基づくモデルであるJaCoTextを紹介する。
自然言語テキストからJavaソースコードを生成することを目的としている。
CONCODEデータセットの実験は、JaCoTextが新しい最先端の結果を達成することを示している。
論文 参考訳(メタデータ) (2023-03-22T19:01:25Z) - A Conversational Paradigm for Program Synthesis [110.94409515865867]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。
私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。
本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文 参考訳(メタデータ) (2022-03-25T06:55:15Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z) - CodeTrans: Towards Cracking the Language of Silicone's Code Through
Self-Supervised Deep Learning and High Performance Computing [4.111243115567736]
本稿では、ソフトウェアエンジニアリング領域のタスクのためのエンコーダデコーダトランスフォーマーモデルであるCodeTransについて説明する。
13のサブタスクを含む6つのソフトウェアエンジニアリングタスクに対するエンコーダ・デコーダ変換モデルの有効性について検討する。
codetransはすべてのタスクで最先端のモデルを上回る。
論文 参考訳(メタデータ) (2021-04-06T11:57:12Z) - SCELMo: Source Code Embeddings from Language Models [33.673421734844474]
本稿では,言語モデルに基づくコンピュータ・プログラムにおける文脈表現の深層化について紹介する。
比較的小さなプログラムのコーパスで訓練された低次元埋め込みでさえ、バグ検出のための最先端の機械学習システムを改善することができることを示す。
論文 参考訳(メタデータ) (2020-04-28T00:06:25Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。