論文の概要: Using Document Similarity Methods to create Parallel Datasets for Code
Translation
- arxiv url: http://arxiv.org/abs/2110.05423v1
- Date: Mon, 11 Oct 2021 17:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:39:05.521989
- Title: Using Document Similarity Methods to create Parallel Datasets for Code
Translation
- Title(参考訳): 文書類似性を用いたコード翻訳のための並列データセット作成
- Authors: Mayank Agarwal, Kartik Talamadupula, Fernando Martinez, Stephanie
Houde, Michael Muller, John Richards, Steven I Ross, Justin D. Weisz
- Abstract要約: あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
- 参考スコア(独自算出の注目度): 60.36392618065203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating source code from one programming language to another is a
critical, time-consuming task in modernizing legacy applications and codebases.
Recent work in this space has drawn inspiration from the software naturalness
hypothesis by applying natural language processing techniques towards
automating the code translation task. However, due to the paucity of parallel
data in this domain, supervised techniques have only been applied to a limited
set of popular programming languages. To bypass this limitation, unsupervised
neural machine translation techniques have been proposed to learn code
translation using only monolingual corpora. In this work, we propose to use
document similarity methods to create noisy parallel datasets of code, thus
enabling supervised techniques to be applied for automated code translation
without having to rely on the availability or expensive curation of parallel
code datasets. We explore the noise tolerance of models trained on such
automatically-created datasets and show that these models perform comparably to
models trained on ground truth for reasonable levels of noise. Finally, we
exhibit the practical utility of the proposed method by creating parallel
datasets for languages beyond the ones explored in prior work, thus expanding
the set of programming languages for automated code translation.
- Abstract(参考訳): あるプログラミング言語から別のプログラミング言語へのソースコードの変換は、レガシーアプリケーションやコードベースの近代化において重要な時間を要するタスクである。
この分野での最近の研究は、コード翻訳タスクの自動化に自然言語処理技術を適用することで、ソフトウェア自然性仮説から着想を得ている。
しかし、この領域における並列データの不完全さのため、教師付き手法は人気のあるプログラミング言語の限られたセットにのみ適用されている。
この制限を回避するために、単言語コーパスのみを用いてコード翻訳を学ぶために教師なしニューラルネットワーク翻訳技術が提案されている。
そこで本研究では,並列コードデータセットの可用性や高価なキュレーションを必要とせずに,教師付き手法を自動コード翻訳に適用する手法を提案する。
このような自動生成データセットでトレーニングされたモデルのノイズ許容性を調査し、適切なノイズレベルのために基底真理でトレーニングされたモデルと同等の性能を示す。
最後に, 提案手法の実用性を示すために, 先行研究で探索された言語以外の言語のための並列データセットを作成し, 自動コード翻訳のためのプログラミング言語セットを拡張した。
関連論文リスト
- NoviCode: Generating Programs from Natural Language Utterances by Novices [59.71218039095155]
初心者非プログラマによるAPIと自然言語記述を入力とする新しいNLプログラミングタスクであるNoviCodeを提示する。
我々は、NoviCodeがコード合成領域における挑戦的なタスクであることを示し、非技術的命令から複雑なコードを生成することは、現在のText-to-Codeパラダイムを超えている。
論文 参考訳(メタデータ) (2024-07-15T11:26:03Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Semantic Parsing in Limited Resource Conditions [19.689433249830465]
この論文はセマンティック解析における課題を探求し、特に限られたデータと計算資源のシナリオに焦点を当てている。
自動データキュレーション、知識伝達、アクティブラーニング、継続的な学習といったテクニックを使ったソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-14T05:03:09Z) - Neural Machine Translation for Code Generation [0.7607163273993514]
コード生成のためのNMTでは、入力で表現された制約を満たすソースコードを生成する。
本稿では,コード生成文献のNMTを調査し,これまで検討されてきた様々な手法のカタログ化を行う。
本稿では,既存手法の限界と今後の研究方向性について論じる。
論文 参考訳(メタデータ) (2023-05-22T21:43:12Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Multilingual Transfer Learning for Code-Switched Language and Speech
Neural Modeling [12.497781134446898]
本稿では,言語非依存なマルチタスク学習手法を提案することにより,言語理論のデータ不足と限界に対処する。
まず,メタラーニングに基づくメタトランスファー学習を提案する。そこでは,高音源単言語音声データから,コードスイッチング領域への情報抽出を行う。
第2に,他の言語で学習した有用な知識を得ることにより,コードスイッチングデータを効果的に表現するための,多言語メタエム手法を提案する。
第3に,言語モデルへの伝達学習戦略として構文情報を統合するために,マルチタスク学習を導入する。
論文 参考訳(メタデータ) (2021-04-13T14:49:26Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - DeepSumm -- Deep Code Summaries using Neural Transformer Architecture [8.566457170664927]
我々はソースコード要約の課題を解決するためにニューラルネットワークを用いる。
2.1m以上のコメントとコードの教師付きサンプルで、トレーニング時間を50%以上短縮します。
論文 参考訳(メタデータ) (2020-03-31T22:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。