論文の概要: Automated Snippet-Alignment Data Augmentation for Code Translation
- arxiv url: http://arxiv.org/abs/2510.15004v1
- Date: Thu, 16 Oct 2025 02:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.311403
- Title: Automated Snippet-Alignment Data Augmentation for Code Translation
- Title(参考訳): コード翻訳のための自動スニペットアライメントデータ拡張
- Authors: Zhiming Zhang, Qingfu Zhu, Xianzhen Luo, Yixuan Wang, Bohan Li, Wanxiang Che,
- Abstract要約: 並列コーパスはプログラムアライメント(PA)とスニペットアライメント(SA)データに分類される。
本稿では,LSMを利用してSAデータを自動的に生成するデータ拡張手法を提案する。
TransCoder-testの実験では、拡張SAデータと2段階のトレーニングアプローチを組み合わせることで、一貫した改善が得られます。
- 参考スコア(独自算出の注目度): 51.59756295898321
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code translation aims to translate the code from its source language to the target language and is used in various software development scenarios. Recent developments in Large Language Models (LLMs) have showcased their capabilities in code translation, and parallel corpora play a crucial role in training models for code translation. Parallel corpora can be categorized into program-alignment (PA) and snippet-alignment (SA) data. Although PA data has complete context and is suitable for semantic alignment learning, it may not provide adequate fine-grained training signals due to its extended length, while the brevity of SA data enables more fine-grained alignment learning. Due to limited parallel corpora, researchers explore several augmentation methods for code translation. Previous studies mainly focus on augmenting PA data. In this paper, we propose a data augmentation method that leverages LLMs to generate SA data automatically. To fully leverage both PA data and SA data, we explore a simple yet effective two-stage training strategy, which consistently enhances model performance compared to fine-tuning solely on PA data. Experiments on TransCoder-test demonstrate that our augmented SA data combined with the two-stage training approach yields consistent improvements over the baseline, achieving a maximum gain of 3.78% on pass@k.
- Abstract(参考訳): コード翻訳はソースコードからターゲット言語への翻訳を目的としており、様々なソフトウェア開発シナリオで使用されている。
近年のLLM(Large Language Models)の発展は、コード翻訳におけるその能力を示し、並列コーパスは、コード翻訳のトレーニングモデルにおいて重要な役割を果たす。
並列コーパスは、プログラムアライメント(PA)とスニペットアライメント(SA)データに分類することができる。
PAデータは完全なコンテキストを持ち,セマンティックアライメント学習に適しているが,SAデータの簡潔さはよりきめ細かなアライメント学習を可能にする一方で,長さが長いため,適切なきめ細かなトレーニング信号を提供することはできない。
並列コーパスが限られているため、研究者はコード翻訳のいくつかの拡張方法を模索している。
従来の研究は主にPAデータの増大に重点を置いていた。
本稿では,LSMを利用してSAデータを自動的に生成するデータ拡張手法を提案する。
PAデータとSAデータの両方をフル活用するために,PAデータのみによる微調整に比べてモデル性能を一貫して向上させる,シンプルで効果的な2段階トレーニング戦略を検討する。
TransCoder-testの実験では、2段階のトレーニングアプローチと組み合わせることでベースラインを一貫した改善が得られ、pass@kで最大3.78%向上した。
関連論文リスト
- Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data [13.587157318352869]
本稿では,並列データに対して,事前学習された大規模言語モデルを継続的に事前学習する2相学習手法を提案する。
日本語と英語と日本語の13種類のテストセットを用いて,これらの手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:23:36Z) - A Novel Paradigm Boosting Translation Capabilities of Large Language Models [11.537249547487045]
本論文は,一貫した単言語データを用いた二次事前学習,インターリニアテキストフォーマット文書による継続事前学習,および教師付きファインチューニングのためのソース・ランゲージ・コンスタント・インストラクションの活用という,3つの段階からなる新しいパラダイムを提案する。
Llama2モデルを用いた実験結果,特に中国語-Llama2を用いて,LLMの翻訳能力の向上を実証した。
論文 参考訳(メタデータ) (2024-03-18T02:53:49Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。