論文の概要: AVATAR: A Parallel Corpus for Java-Python Program Translation
- arxiv url: http://arxiv.org/abs/2108.11590v2
- Date: Thu, 4 May 2023 20:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 18:09:14.310230
- Title: AVATAR: A Parallel Corpus for Java-Python Program Translation
- Title(参考訳): AVATAR: Java-Pythonプログラム翻訳のための並列コーパス
- Authors: Wasi Uddin Ahmad, Md Golam Rahman Tushar, Saikat Chakraborty, Kai-Wei
Chang
- Abstract要約: プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
- 参考スコア(独自算出の注目度): 77.86173793901139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Program translation refers to migrating source code from one programming
language to another. It has tremendous practical value in software development,
as porting software across languages is time-consuming and costly. Automating
program translation is of paramount importance in software migration, and
recently researchers explored unsupervised approaches due to the unavailability
of parallel corpora. However, the availability of pre-trained language models
for programming languages enables supervised fine-tuning with a small number of
labeled examples. Therefore, we present AVATAR, a collection of 9,515
programming problems and their solutions written in two popular languages, Java
and Python. AVATAR is collected from competitive programming sites, online
platforms, and open-source repositories. Furthermore, AVATAR includes unit
tests for 250 examples to facilitate functional correctness evaluation. We
benchmark several pre-trained language models fine-tuned on AVATAR. Experiment
results show that the models lack in generating functionally accurate code.
- Abstract(参考訳): プログラム翻訳とは、あるプログラミング言語から別のプログラミング言語へソースコードを移行することを指す。
言語にまたがるソフトウェアの移植には時間がかかり、コストがかかるため、ソフトウェア開発には非常に実用的価値があります。
プログラム翻訳の自動化はソフトウェア移行において最重要であり、近年の研究者らは並列コーパスが利用できないために教師なしアプローチを探求している。
しかし、プログラム言語のための事前訓練された言語モデルの可用性は、少数のラベル付き例で教師付き微調整を可能にする。
そこで我々は,9,515のプログラミング問題とその解決法をJavaとPythonの2言語で記述したAVATARを提案する。
AVATARは競合するプログラミングサイト、オンラインプラットフォーム、オープンソースリポジトリから収集される。
さらに、AVATARは機能的正当性評価を容易にするために250例の単体テストを含む。
AVATARで微調整されたいくつかの事前学習言語モデルをベンチマークする。
実験結果から, モデルには機能的正確なコード生成が欠如していることが判明した。
関連論文リスト
- CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Can Large Language Models Write Parallel Code? [0.5317767988097261]
大規模言語モデルは、ソフトウェア開発の一般的なツールになりつつある。
本稿では,最先端言語モデルによる並列コード生成能力について検討する。
論文 参考訳(メタデータ) (2024-01-23T08:25:12Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Syntax and Domain Aware Model for Unsupervised Program Translation [23.217899398362206]
プログラム翻訳のための構文とドメイン認識モデルであるSDA-Transを提案する。
構文構造とドメイン知識を活用して、言語間転送能力を向上する。
Python、Java、C++間の関数変換タスクの実験結果は、SDA-Transが多くの大規模事前学習モデルより優れていることを示している。
論文 参考訳(メタデータ) (2023-02-08T06:54:55Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z) - JavaBERT: Training a transformer-based model for the Java programming
language [1.599072005190786]
ソフトウェアコードのためのデータ検索パイプラインを導入し,Javaソフトウェアコード上でモデルをトレーニングする。
得られたモデルであるJavaBERTは、マスキングされた言語モデリングタスクに対して高い精度を示す。
論文 参考訳(メタデータ) (2021-10-20T06:49:41Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - SCELMo: Source Code Embeddings from Language Models [33.673421734844474]
本稿では,言語モデルに基づくコンピュータ・プログラムにおける文脈表現の深層化について紹介する。
比較的小さなプログラムのコーパスで訓練された低次元埋め込みでさえ、バグ検出のための最先端の機械学習システムを改善することができることを示す。
論文 参考訳(メタデータ) (2020-04-28T00:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。