論文の概要: On-Policy Optimization with Group Equivalent Preference for Multi-Programming Language Understanding
- arxiv url: http://arxiv.org/abs/2505.12723v1
- Date: Mon, 19 May 2025 05:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.42201
- Title: On-Policy Optimization with Group Equivalent Preference for Multi-Programming Language Understanding
- Title(参考訳): マルチプログラミング言語理解のためのグループ等価選好を用いたオンライン最適化
- Authors: Haoyuan Wu, Rui Ming, Jilong Gao, Hangyu Zhao, Xueyi Chen, Yikai Yang, Haisheng Zheng, Zhuolun He, Bei Yu,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを達成する。
一般的なプログラミング言語間での大幅な性能格差が持続する。
我々は,LLMの学習にコード翻訳タスクを活用し,コーディング能力の伝達を容易にする。
- 参考スコア(独自算出の注目度): 5.429445008970627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve remarkable performance in code generation tasks. However, a significant performance disparity persists between popular programming languages (e.g., Python, C++) and others. To address this capability gap, we leverage the code translation task to train LLMs, thereby facilitating the transfer of coding proficiency across diverse programming languages. Moreover, we introduce OORL for training, a novel reinforcement learning (RL) framework that integrates on-policy and off-policy strategies. Within OORL, on-policy RL is applied during code translation, guided by a rule-based reward signal derived from unit tests. Complementing this coarse-grained rule-based reward, we propose Group Equivalent Preference Optimization (GEPO), a novel preference optimization method. Specifically, GEPO trains the LLM using intermediate representations (IRs) groups. LLMs can be guided to discern IRs equivalent to the source code from inequivalent ones, while also utilizing signals about the mutual equivalence between IRs within the group. This process allows LLMs to capture nuanced aspects of code functionality. By employing OORL for training with code translation tasks, LLMs improve their recognition of code functionality and their understanding of the relationships between code implemented in different languages. Extensive experiments demonstrate that our OORL for LLMs training with code translation tasks achieves significant performance improvements on code benchmarks across multiple programming languages.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを達成する。
しかし、一般的なプログラミング言語(例えば、Python、C++)と他の言語の間では、大幅なパフォーマンス格差が持続している。
この能力ギャップに対処するために、コード翻訳タスクを活用してLLMを訓練し、様々なプログラミング言語間でのコーディング能力の伝達を容易にする。
さらに,OORLを学習用として導入し,新たな強化学習(RL)フレームワークを構築した。
OORL内では、コード翻訳中にオンポリティクスRLが適用され、ユニットテストから導出されるルールベースの報酬信号によってガイドされる。
この粗いルールに基づく報酬を補完し、新しい優先最適化法であるグループ等価選好最適化(GEPO)を提案する。
具体的には、GEPOは中間表現(IR)グループを使用してLLMを訓練する。
LLMは、グループ内のIR間の相互同値性に関する信号を利用しながら、同値でないソースコードと同等のIRを識別するために導出することができる。
このプロセスにより、LLMはコード機能の微妙な側面をキャプチャできる。
コード翻訳タスクのトレーニングにOORLを用いることで、LLMはコード機能の認識を改善し、異なる言語で実装されたコード間の関係を理解する。
コード翻訳タスクを用いたOORL for LLMsトレーニングは,複数のプログラミング言語のコードベンチマークにおいて,大幅な性能向上を実現している。
関連論文リスト
- CHAI for LLMs: Improving Code-Mixed Translation in Large Language Models through Reinforcement Learning with AI Feedback [11.223762031003671]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示しているが、コード混在(またはコード切替)言語理解に苦慮している。
本稿では,多言語LLMのコード混合言語処理能力を向上させるための新しいフレームワークであるCHAIを提案する。
解析の結果,CHAI を用いた LLM は,コード混在翻訳タスクにおいて,最先端のオープンソース LLM よりも25.66% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-11-13T22:56:00Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Bridge-Coder: Unlocking LLMs' Potential to Overcome Language Gaps in Low-Resource Code [31.48411893252137]
LLM(Large Language Models)は、Pythonのような高リソースプログラミング言語(HRPL)のコードを生成する能力を示すが、RacketやDのような低リソースプログラミング言語(LRPL)と大きく競合する。
このパフォーマンスギャップは、デジタル格差を深くし、LRPLを使用する開発者がLLMの進歩から等しく利益を得るのを防ぎ、表現不足のプログラミングコミュニティにおけるイノベーションの格差を補強する。
LRPLの性能を高めるために,LLMの本質的な能力を活用したBridge-Coderという新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-24T17:55:03Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。