論文の概要: On ML-Based Program Translation: Perils and Promises
- arxiv url: http://arxiv.org/abs/2302.10812v1
- Date: Tue, 21 Feb 2023 16:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 14:15:43.815692
- Title: On ML-Based Program Translation: Perils and Promises
- Title(参考訳): MLベースのプログラム翻訳について:限界と約束
- Authors: Aniketh Malyala and Katelyn Zhou and Baishakhi Ray and Saikat
Chakraborty
- Abstract要約: この研究は、教師なしのプログラム翻訳者とその失敗の理由を調査する。
入力が特定のパターンに従う場合、入力コードを前処理し、出力が特定のパターンに従う場合、出力を後処理するルールベースのプログラム突然変異エンジンを開発する。
将来的には、プログラムドメイン知識をMLベースの翻訳パイプラインに組み込むことができるエンドツーエンドのプログラム翻訳ツールを構想する。
- 参考スコア(独自算出の注目度): 17.818482089078028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of new and advanced programming languages, it becomes
imperative to migrate legacy software to new programming languages.
Unsupervised Machine Learning-based Program Translation could play an essential
role in such migration, even without a sufficiently sizeable reliable corpus of
parallel source code. However, these translators are far from perfect due to
their statistical nature. This work investigates unsupervised program
translators and where and why they fail. With in-depth error analysis of such
failures, we have identified that the cases where such translators fail follow
a few particular patterns. With this insight, we develop a rule-based program
mutation engine, which pre-processes the input code if the input follows
specific patterns and post-process the output if the output follows certain
patterns. We show that our code processing tool, in conjunction with the
program translator, can form a hybrid program translator and significantly
improve the state-of-the-art. In the future, we envision an end-to-end program
translation tool where programming domain knowledge can be embedded into an
ML-based translation pipeline using pre- and post-processing steps.
- Abstract(参考訳): 新しく先進的なプログラミング言語が出現すると、レガシーソフトウェアを新しいプログラミング言語に移行することが不可欠になる。
教師なしの機械学習ベースのプログラム翻訳は、十分なサイズの並列ソースコードコーパスがなくても、そのような移行において不可欠な役割を果たす。
しかし、これらの翻訳者は統計的な性質から完璧とは程遠い。
この研究は、教師なしのプログラム翻訳者とその失敗の理由を調査する。
このような故障を詳細に解析することで、そのような翻訳者が失敗するケースは、いくつかの特定のパターンに従うことが判明した。
この知見により、入力が特定のパターンに従う場合、入力コードを前処理し、出力が特定のパターンに従う場合、出力を後処理するルールベースのプログラム突然変異エンジンを開発する。
プログラムトランスレータと組み合わせることで,プログラムトランスレータのハイブリッド化を実現し,最先端のプログラムトランスレータを大幅に改善できることを示す。
将来的には、事前処理と後処理のステップを使用して、プログラムドメイン知識をMLベースの翻訳パイプラインに組み込むことができるエンドツーエンドのプログラム翻訳ツールを構想する。
関連論文リスト
- Exploring and Unleashing the Power of Large Language Models in Automated Code Translation [40.25727029618665]
本稿では,自動翻訳タスクのための多種多様なLLMと学習ベーストランスパイラについて検討する。
UniTrans は、様々な LLM に適用可能な統一コード翻訳フレームワークである。
最近の3つのLLMはUniTransでテストされており、いずれも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-23T00:49:46Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Syntax and Domain Aware Model for Unsupervised Program Translation [23.217899398362206]
プログラム翻訳のための構文とドメイン認識モデルであるSDA-Transを提案する。
構文構造とドメイン知識を活用して、言語間転送能力を向上する。
Python、Java、C++間の関数変換タスクの実験結果は、SDA-Transが多くの大規模事前学習モデルより優れていることを示している。
論文 参考訳(メタデータ) (2023-02-08T06:54:55Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Tea: Program Repair Using Neural Network Based on Program Information
Attention Matrix [14.596847020236657]
本稿では,ソフトウェアプログラムの構文,データフロー,制御フローの側面を捉える統一表現を提案する。
そこで我々は,この表現を用いて,NLPからトランスフォーマーモデルを誘導し,バギープログラムの理解と修正を行う手法を考案した。
論文 参考訳(メタデータ) (2021-07-17T15:49:22Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Synthetic Datasets for Neural Program Synthesis [66.20924952964117]
本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。
そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
論文 参考訳(メタデータ) (2019-12-27T21:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。