論文の概要: AVATAR: A Parallel Corpus for Java-Python Program Translation
- arxiv url: http://arxiv.org/abs/2108.11590v1
- Date: Thu, 26 Aug 2021 05:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 13:58:01.356339
- Title: AVATAR: A Parallel Corpus for Java-Python Program Translation
- Title(参考訳): AVATAR: Java-Pythonプログラム翻訳のための並列コーパス
- Authors: Wasi Uddin Ahmad, Md Golam Rahman Tushar, Saikat Chakraborty, Kai-Wei
Chang
- Abstract要約: 我々は8,475のプログラミング問題とその解決策をJavaとPythonという2つの人気のある言語で記述したコーパスを提示する。
我々は、スクラッチからトレーニングされたモデルや大規模なソースコードコレクションで事前訓練されたモデルを含む、いくつかのベースラインを提示する。
- 参考スコア(独自算出の注目度): 36.98017072369331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Program translation refers to migrating source code from one programming
language to another. It has a tremendous practical value in software
development as porting software across different languages is time-consuming
and costly. Automating program translation is of paramount importance in
software migration, and recently researchers explored unsupervised approaches
due to the unavailability of parallel corpora. However, the availability of
pre-trained language models for programming languages enable supervised
fine-tuning with a small amount of labeled examples. In this work, we present a
corpus of 8,475 programming problems and their solutions written in two popular
languages, Java and Python. We collect the dataset from competitive programming
sites, online platforms, and open source repositories. We present several
baselines, including models trained from scratch or pre-trained on large-scale
source code collection and fine-tuned on our proposed dataset. Experiment
results show that while the models perform relatively well in terms of the
lexical match, they lack in generating code that is accurate in terms of syntax
and data-flow match.
- Abstract(参考訳): プログラム翻訳とは、あるプログラミング言語から別のプログラミング言語へソースコードを移行することを指す。
異なる言語にソフトウェアを移植するのは時間と費用がかかるため、ソフトウェア開発において非常に実践的な価値があります。
プログラム翻訳の自動化はソフトウェア移行において最重要であり、近年の研究者らは並列コーパスが利用できないために教師なしアプローチを探求している。
しかし、プログラム言語のための事前訓練された言語モデルの可用性は、少数のラベル付き例で教師付き微調整を可能にする。
本研究では,8,475のプログラミング問題とその解決法をJavaとPythonの2言語で記述したコーパスを提案する。
競合するプログラミングサイト、オンラインプラットフォーム、オープンソースリポジトリからデータセットを収集します。
大規模なソースコード収集や提案データセットの微調整など,スクラッチからトレーニングされたモデルを含む,いくつかのベースラインを提示する。
実験の結果、モデルは語彙マッチングでは比較的よく機能するが、構文やデータフローマッチングで正確なコードを生成することができないことがわかった。
関連論文リスト
- CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Can Large Language Models Write Parallel Code? [0.5317767988097261]
大規模言語モデルは、ソフトウェア開発の一般的なツールになりつつある。
本稿では,最先端言語モデルによる並列コード生成能力について検討する。
論文 参考訳(メタデータ) (2024-01-23T08:25:12Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Syntax and Domain Aware Model for Unsupervised Program Translation [23.217899398362206]
プログラム翻訳のための構文とドメイン認識モデルであるSDA-Transを提案する。
構文構造とドメイン知識を活用して、言語間転送能力を向上する。
Python、Java、C++間の関数変換タスクの実験結果は、SDA-Transが多くの大規模事前学習モデルより優れていることを示している。
論文 参考訳(メタデータ) (2023-02-08T06:54:55Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z) - JavaBERT: Training a transformer-based model for the Java programming
language [1.599072005190786]
ソフトウェアコードのためのデータ検索パイプラインを導入し,Javaソフトウェアコード上でモデルをトレーニングする。
得られたモデルであるJavaBERTは、マスキングされた言語モデリングタスクに対して高い精度を示す。
論文 参考訳(メタデータ) (2021-10-20T06:49:41Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - SCELMo: Source Code Embeddings from Language Models [33.673421734844474]
本稿では,言語モデルに基づくコンピュータ・プログラムにおける文脈表現の深層化について紹介する。
比較的小さなプログラムのコーパスで訓練された低次元埋め込みでさえ、バグ検出のための最先端の機械学習システムを改善することができることを示す。
論文 参考訳(メタデータ) (2020-04-28T00:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。