論文の概要: Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL
- arxiv url: http://arxiv.org/abs/2604.20835v1
- Date: Wed, 22 Apr 2026 17:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.275674
- Title: Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL
- Title(参考訳): Parallel-SFT:コードRLにおけるゼロショットクロスプラットフォーム言語変換の改善
- Authors: Zhaofeng Wu, Shiqi Wang, Boya Peng, Anuj Goyal, Melanie Kambadur, Sebastian Ruder, Yoon Kim, Chloe Bi,
- Abstract要約: コードRLに対するゼロショットクロス言語転送の課題を提案する。
Llama-3.1では、ソースPLにおけるコード生成のためのRLトレーニングは改善されず、時には劣化し、他のターゲットPLのパフォーマンスが低下する。
並列プログラム(複数のPLで実装された機能的に等価なコード)をデータミックスに組み込むSFT戦略である**Parallel-SFT*を提案する。
- 参考スコア(独自算出の注目度): 49.42252118336379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language models demonstrate impressive coding capabilities in common programming languages (PLs), such as C++ and Python, but their performance in lower-resource PLs is often limited by training data availability. In principle, however, most programming skills are universal across PLs, so the capability acquired in one PL should transfer to others. In this work, we propose the task of zero-shot cross-programming-language transfer for code RL. We find that, for Llama-3.1, RL training for code generation in a source PL fails to improve, and sometimes even degrades, the performance on other target PLs. To address this, we hypothesize that effective RL transfer requires a generalizable SFT initialization before RL. We thus propose **Parallel-SFT**, an SFT strategy that incorporates "parallel programs" -- functionally equivalent code implemented in multiple PLs -- into the data mixture. We demonstrate that this improves transferability: when we subsequently perform RL on our Parallel-SFT model, we observe better generalization to unseen PLs. Analysis of the model internal representations reveals that Parallel-SFT leads to a more functionality-centric latent space, where equivalent programs across PLs are more tightly clustered, which we hypothesize to contribute to the improved transferability.
- Abstract(参考訳): 現代の言語モデルは、C++やPythonのような共通プログラミング言語(PL)で印象的なコーディング能力を示すが、低リソースのPLのパフォーマンスは、データ可用性のトレーニングによって制限されることが多い。
しかし、原則として、ほとんどのプログラミングスキルはPL全体で普遍的であるため、あるPLで獲得した能力は他のPLに移管されるべきである。
本稿では,コードRLに対するゼロショットクロスプログラミング言語転送の課題を提案する。
Llama-3.1では、ソースPLにおけるコード生成のためのRLトレーニングは改善されず、時には劣化し、他のターゲットPLのパフォーマンスが低下する。
これを解決するために、実効的なRL転送には、RLの前に一般化可能なSFT初期化が必要であると仮定する。
そこで我々は、複数のPLで実装された機能的に等価なコードである並列プログラムをデータミックスに組み込むSFT戦略**Parallel-SFT*を提案する。
そこで我々は、Parallel-SFTモデルでRLを実行すると、この手法により転送可能性が改善されることを示した。
モデル内部表現の解析により、Parallel-SFTは、PL間の等価プログラムがより密集した、より機能中心の潜伏空間に導かれることが明らかになった。
関連論文リスト
- CodePivot: Bootstrapping Multilingual Transpilation in LLMs via Reinforcement Learning without Parallel Corpora [12.250493747181459]
トランスパイレーション(Transpilation、コード翻訳)は、ある言語から別の言語にソースコードを変換することを目的としている。
最近の大規模言語モデル (LLM) に基づくアプローチは、コード翻訳に大きな可能性を示している。
並列コーパスを必要とせずに、モデルの多言語翻訳能力をブートストラップするトレーニングフレームワークであるCodePivotを提案する。
論文 参考訳(メタデータ) (2026-04-20T09:52:50Z) - Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training [61.1421888242439]
Supervised Fine-tuning (SFT) は計算効率が良いが、強化学習 (RL) に比べて一般化が劣ることが多い。
そこで我々は,オンポリシィSFTを有効にすることで,このシャームを橋渡しするフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T17:59:58Z) - Scaling Laws for Code: Every Programming Language Matters [73.6302896079007]
コード大言語モデル(Code LLM)は強力だが、トレーニングにはコストがかかる。
異なるプログラミング言語(PL)は、ベースモデルの性能に大きな影響を及ぼす事前トレーニングの間に様々な影響を与える。
本稿では,多言語コードの事前学習のためのスケーリング法則を初めて体系的に検討する。
論文 参考訳(メタデータ) (2025-12-15T16:07:34Z) - CrossPL: Evaluating Large Language Models on Cross Programming Language Code Generation [24.468767564264738]
大規模言語モデル(LLM)のクロスプログラミング言語(CPL)コードを生成する能力を評価するために設計された最初のベンチマークであるCrossPLを提案する。
CrossPLは、IPCを中心とした1,982のタスクで構成され、6つの広く使われているプログラミング言語と7つの代表的CPL技術を含んでいる。
FSMによる検証により,過去3年間にリリースされた14の最先端汎用LLMと6のコード指向LLMをCrossPL上で評価した。
論文 参考訳(メタデータ) (2025-07-26T10:28:39Z) - Just Go Parallel: Improving the Multilingual Capabilities of Large Language Models [59.21082876068122]
大規模言語モデル(LLM)は、並列データに対して明示的に訓練されることなく、印象的な翻訳能力を実証している。
近年の研究では、トレーニングデータに付随するバイリンガル信号が原因であることが示唆されている。
多言語エンコーダベースおよびエンコーダデコーダ言語モデルの多言語能力を高めるために,並列データの有用性を最大化する様々な手法が提案されている。
論文 参考訳(メタデータ) (2025-06-16T02:21:15Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文 参考訳(メタデータ) (2024-06-14T03:39:01Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - Transfer Q-learning [46.69861865164196]
時間不均一な有限水平マルコフ決定過程 (MDP) は動的処理系における意思決定のモデル化によく用いられる。
これらの分野、特に医療とビジネスは、高次元状態空間やMDPプロセスの時間的不均一性といった課題に直面していることが多い。
対象のRLタスクと関連する複数のソースタスクからのデータを活用することにより,時間的不均一な有限水平MDP内の知識伝達について検討する。
論文 参考訳(メタデータ) (2022-02-09T20:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。