論文の概要: Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages
- arxiv url: http://arxiv.org/abs/2205.11116v1
- Date: Mon, 23 May 2022 08:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 19:32:29.132726
- Title: Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages
- Title(参考訳): 逆変換のための要約と生成:プログラミング言語の教師なし翻訳
- Authors: Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang
- Abstract要約: バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
- 参考スコア(独自算出の注目度): 86.08359401867577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Back-translation is widely known for its effectiveness for neural machine
translation when little to no parallel data is available. In this approach, a
source-to-target model is coupled with a target-to-source model trained in
parallel. The target-to-source model generates noisy sources, while the
source-to-target model is trained to reconstruct the targets and vice versa.
Recent developments of multilingual pre-trained sequence-to-sequence models for
programming languages have been very effective for a broad spectrum of
downstream software engineering tasks. Hence, it is compelling to train them to
build programming language translation systems via back-translation. However,
these models cannot be further trained via back-translation since they learn to
output sequences in the same language as the inputs during pre-training. As an
alternative, we propose performing back-translation via code summarization and
generation. In code summarization, a model learns to generate natural language
(NL) summaries given code snippets. In code generation, the model learns to do
the opposite. Therefore, target-to-source generation in back-translation can be
viewed as target-to-NL-to-source generation. We show that our proposed approach
performs competitively with state-of-the-art methods.
- Abstract(参考訳): バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
このアプローチでは、ソースからターゲットへのモデルは、並列にトレーニングされたターゲットからソースへのモデルと結合される。
ソース・ツー・ソース・モデルはノイズの多いソースを生成し、ソース・ツー・ターゲット・モデルはターゲットの再構築とその逆を訓練する。
近年の多言語事前学習シーケンス・ツー・シーケンス・モデルの開発は、下流ソフトウェア工学の幅広い分野において非常に効果的である。
したがって、バックトランスレーションによるプログラミング言語翻訳システムの構築を訓練することは魅力的である。
しかし、これらのモデルは、事前学習中の入力と同じ言語でシーケンスを出力することを学ぶため、バックトランスレーションによってさらに訓練することはできない。
代替として、コード要約と生成による逆翻訳を提案する。
コード要約では、モデルが与えられたコードスニペットに自然言語(nl)サマリーを生成することを学ぶ。
コード生成では、モデルが反対の方法を学ぶ。
したがって、バックトランスレーションにおけるターゲットからソースへの生成は、ターゲットからnlへの生成と見なすことができる。
提案手法は最先端の手法と競合することを示す。
関連論文リスト
- Relay Decoding: Concatenating Large Language Models for Machine Translation [21.367605327742027]
我々はRD(Relay Decoding)と呼ばれる革新的なアプローチを提案し、ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを結合する。
これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-05T13:42:25Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning [0.7612676127275795]
ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
論文 参考訳(メタデータ) (2023-01-23T18:56:12Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - A Hybrid Approach for Improved Low Resource Neural Machine Translation
using Monolingual Data [0.0]
多くの言語ペアは低リソースであるため、利用可能な並列データの量や品質は、ニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分ではない。
本研究は, 後方モデルと前方モデルの両方が単言語的対象データから恩恵を受けられるような, 新たなアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-14T22:18:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。