論文の概要: CodePivot: Bootstrapping Multilingual Transpilation in LLMs via Reinforcement Learning without Parallel Corpora
- arxiv url: http://arxiv.org/abs/2604.18027v1
- Date: Mon, 20 Apr 2026 09:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.79661
- Title: CodePivot: Bootstrapping Multilingual Transpilation in LLMs via Reinforcement Learning without Parallel Corpora
- Title(参考訳): コードPivot:並列コーパスのない強化学習によるLLMにおけるブートストラップ多言語翻訳
- Authors: Shangyu Li, Juyong Jiang, Meibo Ren, Sizhe Zhong, Huiri Tan, Yunhao Gou, Xu Han, Chun Yong Chong, Yun Peng, Jiasi Shen,
- Abstract要約: トランスパイレーション(Transpilation、コード翻訳)は、ある言語から別の言語にソースコードを変換することを目的としている。
最近の大規模言語モデル (LLM) に基づくアプローチは、コード翻訳に大きな可能性を示している。
並列コーパスを必要とせずに、モデルの多言語翻訳能力をブートストラップするトレーニングフレームワークであるCodePivotを提案する。
- 参考スコア(独自算出の注目度): 12.250493747181459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transpilation, or code translation, aims to convert source code from one programming language (PL) to another. It is beneficial for many downstream applications, from modernizing large legacy codebases to augmenting data for low-resource PLs. Recent large language model (LLM)-based approaches have demonstrated immense potential for code translation. Among these approaches, training-based methods are particularly important because LLMs currently do not effectively adapt to domain-specific settings that suffer from a lack of knowledge without targeted training. This limitation is evident in transpilation tasks involving low-resource PLs. However, existing training-based approaches rely on a pairwise transpilation paradigm, making it impractical to support a diverse range of PLs. This limitation is particularly prominent for low-resource PLs due to a scarcity of training data. Furthermore, these methods suffer from suboptimal reinforcement learning (RL) reward formulations. To address these limitations, we propose CodePivot, a training framework that leverages Python as an intermediate representation (IR), augmented by a novel RL reward mechanism, Aggressive-Partial-Functional reward, to bootstrap the model's multilingual transpilation ability without requiring parallel corpora. Experiments involving 10 PLs show that the resulting 7B model, trained on Python-to-Others tasks, consistently improves performance across both general and low-resource PL-related transpilation tasks. It outperforms substantially larger mainstream models with hundreds of billions more parameters, such as Deepseek-R1 and Qwen3-235B-A22B-Instruct-2507, on Python-to-Others tasks and Others-to-All tasks, respectively. In addition, it outperforms its counterpart trained directly on Any-to-Any tasks on general transpilation tasks. The code and data are available at https://github.com/lishangyu-hkust/CodePivot.
- Abstract(参考訳): Transpilation(コード翻訳)は、あるプログラミング言語(PL)から別のプログラミング言語へソースコードを変換することを目的としている。
大規模なレガシーコードベースの近代化や、低リソースのPLのデータ拡張など、多くのダウンストリームアプリケーションにとって有益である。
最近の大規模言語モデル (LLM) に基づくアプローチは、コード翻訳に大きな可能性を示している。
これらのアプローチの中で、トレーニングベースの手法が特に重要であるのは、現在LLMは、目標とするトレーニングなしで知識の不足に苦しむドメイン固有の設定に効果的に適応していないためである。
この制限は、低リソースPLを含むトランスパイルタスクにおいて明らかである。
しかし、既存のトレーニングベースのアプローチはペアワイズトランスパイルパラダイムに依存しており、多様なPLをサポートすることは不可能である。
この制限は、トレーニングデータの不足のため、低リソースPLでは特に顕著である。
さらに,これらの手法は準最適強化学習(RL)報酬の定式化に悩まされる。
このような制限に対処するために,新しいRL報酬機構であるAggressive-Partial-Functional rewardによって強化された,Pythonを中間表現(IR)として活用するトレーニングフレームワークであるCodePivotを提案する。
10個のPLを含む実験では、Python-to-Othersタスクでトレーニングされた結果の7Bモデルが、一般的なPL関連のトランスパイラタスクと低リソースのPL関連のトランスパイラタスクの両方のパフォーマンスを一貫して改善している。
Deepseek-R1やQwen3-235B-A22B-Instruct-2507のように、Python-to-OthersタスクとOthers-to-Allタスクにおいて、数十億以上のパラメータを持つ、かなり大きなメインストリームモデルを上回っている。
さらに、一般的なトランスパイルタスクにおいて、Any-to-Anyタスクで直接訓練された他のタスクよりも優れています。
コードとデータはhttps://github.com/lishangyu-hkust/CodePivotで公開されている。
関連論文リスト
- Scaling Laws for Code: Every Programming Language Matters [73.6302896079007]
コード大言語モデル(Code LLM)は強力だが、トレーニングにはコストがかかる。
異なるプログラミング言語(PL)は、ベースモデルの性能に大きな影響を及ぼす事前トレーニングの間に様々な影響を与える。
本稿では,多言語コードの事前学習のためのスケーリング法則を初めて体系的に検討する。
論文 参考訳(メタデータ) (2025-12-15T16:07:34Z) - On-Policy Optimization with Group Equivalent Preference for Multi-Programming Language Understanding [5.429445008970627]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを達成する。
一般的なプログラミング言語間での大幅な性能格差が持続する。
我々は,LLMの学習にコード翻訳タスクを活用し,コーディング能力の伝達を容易にする。
論文 参考訳(メタデータ) (2025-05-19T05:25:29Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [52.763620660061115]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。
我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。
提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T13:52:43Z) - Bridge-Coder: Unlocking LLMs' Potential to Overcome Language Gaps in Low-Resource Code [31.48411893252137]
LLM(Large Language Models)は、Pythonのような高リソースプログラミング言語(HRPL)のコードを生成する能力を示すが、RacketやDのような低リソースプログラミング言語(LRPL)と大きく競合する。
このパフォーマンスギャップは、デジタル格差を深くし、LRPLを使用する開発者がLLMの進歩から等しく利益を得るのを防ぎ、表現不足のプログラミングコミュニティにおけるイノベーションの格差を補強する。
LRPLの性能を高めるために,LLMの本質的な能力を活用したBridge-Coderという新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-24T17:55:03Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - MultiCoder: Multi-Programming-Lingual Pre-Training for Low-Resource Code
Completion [21.100570496144694]
我々は、MultiPLプレトレーニングとMultiPL Mixture-of-Expertsレイヤを用いて、低リソースのコード補完を強化するためのMultiCoderを提案する。
また,全てのPLのコード補完を改善するため,新しいPLレベルMOEルーティング戦略(PL-MoE)を提案する。
論文 参考訳(メタデータ) (2022-12-19T17:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。