論文の概要: Syntax and Domain Aware Model for Unsupervised Program Translation
- arxiv url: http://arxiv.org/abs/2302.03908v1
- Date: Wed, 8 Feb 2023 06:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 17:04:43.174004
- Title: Syntax and Domain Aware Model for Unsupervised Program Translation
- Title(参考訳): 教師なしプログラム翻訳のための構文とドメイン認識モデル
- Authors: Fang Liu, Jia Li, Li Zhang
- Abstract要約: プログラム翻訳のための構文とドメイン認識モデルであるSDA-Transを提案する。
構文構造とドメイン知識を活用して、言語間転送能力を向上する。
Python、Java、C++間の関数変換タスクの実験結果は、SDA-Transが多くの大規模事前学習モデルより優れていることを示している。
- 参考スコア(独自算出の注目度): 23.217899398362206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is growing interest in software migration as the development of
software and society. Manually migrating projects between languages is
error-prone and expensive. In recent years, researchers have begun to explore
automatic program translation using supervised deep learning techniques by
learning from large-scale parallel code corpus. However, parallel resources are
scarce in the programming language domain, and it is costly to collect
bilingual data manually. To address this issue, several unsupervised
programming translation systems are proposed. However, these systems still rely
on huge monolingual source code to train, which is very expensive. Besides,
these models cannot perform well for translating the languages that are not
seen during the pre-training procedure. In this paper, we propose SDA-Trans, a
syntax and domain-aware model for program translation, which leverages the
syntax structure and domain knowledge to enhance the cross-lingual transfer
ability. SDA-Trans adopts unsupervised training on a smaller-scale corpus,
including Python and Java monolingual programs. The experimental results on
function translation tasks between Python, Java, and C++ show that SDA-Trans
outperforms many large-scale pre-trained models, especially for unseen language
translation.
- Abstract(参考訳): ソフトウェアと社会の発展に伴って、ソフトウェア移行への関心が高まっている。
手動で言語間でプロジェクトを移行することは、エラーを起こしやすく、高価である。
近年,大規模並列コードコーパスから学習することにより,教師あり深層学習技術を用いた自動プログラム翻訳の研究が始まっている。
しかし、並列リソースはプログラミング言語領域では不足しており、バイリンガルデータを手動で収集するのはコストがかかる。
この問題に対処するために,教師なしプログラミング翻訳システムをいくつか提案する。
しかし、これらのシステムはトレーニングに巨大な単言語ソースコードに依存しているため、非常に高価である。
さらに、これらのモデルは、事前トレーニング手順中に見られない言語を翻訳する上ではうまく機能しない。
本稿では,SDA-Transを提案する。SDA-Transは,構文構造とドメイン知識を活用し,言語間変換能力を向上させるプログラム翻訳のための構文とドメイン認識モデルである。
SDA-Transは、PythonやJavaのモノリンガルプログラムを含む、小規模のコーパスで教師なしのトレーニングを採用する。
Python、Java、C++間の関数変換タスクの実験結果から、SDA-Transは多くの大規模事前学習モデル、特に目に見えない言語翻訳において性能が向上していることが示された。
関連論文リスト
- Exploring and Unleashing the Power of Large Language Models in Automated Code Translation [40.25727029618665]
本稿では,自動翻訳タスクのための多種多様なLLMと学習ベーストランスパイラについて検討する。
UniTrans は、様々な LLM に適用可能な統一コード翻訳フレームワークである。
最近の3つのLLMはUniTransでテストされており、いずれも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-23T00:49:46Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Zero-shot Cross-lingual Transfer without Parallel Corpus [6.937772043639308]
本稿では,事前学習モデルを用いてゼロショット言語間移動を行う手法を提案する。
タスク関連のバイリンガル情報アライメントを適用するバイリンガルタスクフィッティングモジュールで構成されている。
自己学習モジュールは、ラベルのないデータに対して擬似ソフトおよびハードラベルを生成し、それを利用して自己学習を行う。
論文 参考訳(メタデータ) (2023-10-07T07:54:22Z) - On ML-Based Program Translation: Perils and Promises [17.818482089078028]
この研究は、教師なしのプログラム翻訳者とその失敗の理由を調査する。
入力が特定のパターンに従う場合、入力コードを前処理し、出力が特定のパターンに従う場合、出力を後処理するルールベースのプログラム突然変異エンジンを開発する。
将来的には、プログラムドメイン知識をMLベースの翻訳パイプラインに組み込むことができるエンドツーエンドのプログラム翻訳ツールを構想する。
論文 参考訳(メタデータ) (2023-02-21T16:42:20Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Unsupervised Translation of Programming Languages [19.56070393390029]
ソース・トゥ・ソース(source-to-source)またはトランスコンパイラ(transcompiler)は、ソースコードをハイレベルなプログラミング言語から別のプログラミング言語に変換するシステムである。
私たちは、オープンソースのGitHubプロジェクトからソースコードでモデルをトレーニングし、C++、Java、Python間の関数を高い精度で翻訳できることを示しています。
論文 参考訳(メタデータ) (2020-06-05T15:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。