論文の概要: Program Translation via Code Distillation
- arxiv url: http://arxiv.org/abs/2310.11476v1
- Date: Tue, 17 Oct 2023 04:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 12:17:06.863236
- Title: Program Translation via Code Distillation
- Title(参考訳): コード蒸留によるプログラム翻訳
- Authors: Yufan Huang, Mengnan Qi, Yongqiang Yao, Maoquan Wang, Bin Gu, Colin
Clement, Neel Sundaresan
- Abstract要約: 伝統的な機械翻訳は、教師あり翻訳に並列コーパスに依存している。
最近の教師なしニューラルネットワーク翻訳技術は、データ制限を克服している。
コード蒸留(CoDist)と呼ばれる新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 20.668229308907495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software version migration and program translation are an important and
costly part of the lifecycle of large codebases. Traditional machine
translation relies on parallel corpora for supervised translation, which is not
feasible for program translation due to a dearth of aligned data. Recent
unsupervised neural machine translation techniques have overcome data
limitations by included techniques such as back translation and low level
compiler intermediate representations (IR). These methods face significant
challenges due to the noise in code snippet alignment and the diversity of IRs
respectively. In this paper we propose a novel model called Code Distillation
(CoDist) whereby we capture the semantic and structural equivalence of code in
a language agnostic intermediate representation. Distilled code serves as a
translation pivot for any programming language, leading by construction to
parallel corpora which scale to all available source code by simply applying
the distillation compiler. We demonstrate that our approach achieves
state-of-the-art performance on CodeXGLUE and TransCoder GeeksForGeeks
translation benchmarks, with an average absolute increase of 12.7% on the
TransCoder GeeksforGeeks translation benchmark compare to TransCoder-ST.
- Abstract(参考訳): ソフトウェアバージョン移行とプログラム翻訳は、大規模なコードベースのライフサイクルにおいて重要かつコストがかかる部分です。
従来の機械翻訳は教師付き翻訳のために並列コーパスに依存しており、アライメントされたデータの多さのためプログラムの翻訳には不可能である。
最近の教師なしニューラルネットワーク翻訳技術は、バック翻訳や低レベルコンパイラ中間表現(IR)などを含む技術によって、データ制限を克服している。
これらの手法は、コードスニペットアライメントのノイズと、それぞれIRの多様性のために大きな課題に直面している。
本稿では,言語に依存しない中間表現において,コードの意味的および構造的等価性を捉える,コード蒸留(CoDist)と呼ばれる新しいモデルを提案する。
蒸留されたコードは任意のプログラミング言語の翻訳ピボットとして機能し、蒸留コンパイラを単純に適用することによって、利用可能なすべてのソースコードにスケールする並列コーパスの構築に繋がる。
CodeXGLUE と TransCoder GeeksForGeeks の翻訳ベンチマークでは,TransCoder GeeksforGeeks の翻訳ベンチマークでは平均 12.7% が TransCoder-ST と比較された。
関連論文リスト
- Data Augmentation for Code Translation with Comparable Corpora and
Multiple References [23.764843421101176]
我々は、自然言語ドキュメントから生成されたプログラムを含む、比較可能なコーパスの複数のタイプを構築し、分析する。
単一の参照変換に対する過度な適合を低減するため、利用可能な並列データに対する追加の翻訳参照を自動生成する。
実験の結果,Java,Python,C++間の変換において,平均7.5%の計算精度でコードT5が大幅に改善された。
論文 参考訳(メタデータ) (2023-11-01T06:01:22Z) - CodeTransOcean: A Comprehensive Multilingual Benchmark for Code
Translation [8.979765541978292]
CodeTransOceanは、コード翻訳のための最大のプログラミング言語をサポートする大規模な包括的なデータセットである。
CodeTransOceanは3つの新しい多言語データセット、すなわち、複数のポピュラープログラミング言語間の翻訳をサポートするMultilingualTrans、ニッチプログラミング言語とポピュラー言語間の翻訳を行うNicheTrans、大言語モデル(LLM)による翻訳コードの実行可能性を評価するLLMTransで構成されている。
論文 参考訳(メタデータ) (2023-10-08T00:16:18Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - The Effect of Alignment Objectives on Code-Switching Translation [0.0]
我々は、ある言語から別の言語への単言語文の翻訳が可能な単一の機械翻訳モデルを訓練する方法を提案している。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
論文 参考訳(メタデータ) (2023-09-10T14:46:31Z) - On ML-Based Program Translation: Perils and Promises [17.818482089078028]
この研究は、教師なしのプログラム翻訳者とその失敗の理由を調査する。
入力が特定のパターンに従う場合、入力コードを前処理し、出力が特定のパターンに従う場合、出力を後処理するルールベースのプログラム突然変異エンジンを開発する。
将来的には、プログラムドメイン知識をMLベースの翻訳パイプラインに組み込むことができるエンドツーエンドのプログラム翻訳ツールを構想する。
論文 参考訳(メタデータ) (2023-02-21T16:42:20Z) - Code Translation with Compiler Representations [21.702473137941006]
従来のトランスパイラは構文情報と手作りのルールに依存しており、適用性が制限され、不自然なコードを生成する。
コードへのニューラルマシン翻訳(NMT)アプローチの適用は、自然な翻訳を得られる一連のプログラムをうまく拡張した。
ここでは、C++、Java、Rust、Go言語に関する結果とともに、IR、特にLLVM IRによるコード翻訳を強化することを提案する。
論文 参考訳(メタデータ) (2022-06-30T14:21:57Z) - Principled Paraphrase Generation with Parallel Corpora [52.78059089341062]
ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
論文 参考訳(メタデータ) (2022-05-24T17:22:42Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。