Fugu-MT 論文翻訳(概要): CoRe-Code: Collaborative Reinforcement Learning for Code Generation

論文の概要: CoRe-Code: Collaborative Reinforcement Learning for Code Generation

arxiv url: http://arxiv.org/abs/2605.24812v1
Date: Sun, 24 May 2026 01:47:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.459886
Title: CoRe-Code: Collaborative Reinforcement Learning for Code Generation
Title（参考訳）: CoRe-Code: コード生成のためのコラボレーション強化学習
Authors: Zhihao Dou, Qinjian Zhao, Zhongwei Wan, Xiaoyu Xia, Sumon Biswas,
Abstract要約: 大規模言語モデル(LLM)はコード生成において高いパフォーマンスを達成しているが、ほとんどのメソッドはグローバル計画なしで自動回帰デコーディングに依存している。エージェント間協調を強化し,より正確かつ効率的なコードを生成する,特殊なLLMエージェントのためのフレームワークである協調強化コード(CoRe-Code)を提案する。
参考スコア（独自算出の注目度）: 13.697928927084037
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have achieved strong performance in code generation, but most methods rely on autoregressive decoding without global planning, often leading to locally coherent yet globally suboptimal solutions (e.g., failing test cases or inefficient complexity). While recent approaches such as Chain-of-Thought (CoT) and multi-agent systems (MAS) introduce planning, their limited role specialization and coordination hinder performance on complex tasks. To address the challenges of coordination and specialization in multi-agent code generation, we propose Collaborative Reinforcement Code (CoRe-Code), a framework for role specialized LLM agents that enhances inter-agent coordination to generate more accurate and efficient code. CoRe-Code adopts a simple Planner-Coder paradigm, where the Planner produces high-level plans and the Coder executes them to generate code. We further introduce a collaboration-aware reinforcement learning stage based on Group Relative Policy Optimization (GRPO) to enhance role specialization and alignment. Experiments show that CoRe-Code outperforms a wide range of existing RL-based and multi-agent methods. In addition, we demonstrate that CoRe-Code can generalize to other multi-agent frameworks (e.g., Retrieval and Debugging agents), highlighting its flexibility and scalability. We evaluate CoRe-Code on multiple benchmarks of varying difficulty using three base models. Compared to existing baselines, the results show consistent improvements in accuracy, while also achieving higher efficiency in terms of execution time and memory usage, demonstrating the effectiveness and practicality of CoRe-Code.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード生成において強力なパフォーマンスを実現しているが、ほとんどのメソッドは、グローバル計画なしで自動回帰デコーディングに依存しており、多くの場合、局所的に一貫性があり、グローバルに最適化されたソリューション(例えば、テストケースの失敗や非効率な複雑さ)につながる。 CoT(Chain-of-Thought)やマルチエージェントシステム(Multi-Adnt System,MAS)といった最近のアプローチでは計画が導入されているが、その限定的な役割の専門化と調整は複雑なタスクのパフォーマンスを妨げている。マルチエージェントコード生成におけるコーディネーションと特殊化の課題に対処するため,より正確かつ効率的なコードを生成するために,エージェント間コーディネーションを強化する役割専門のLLMエージェントのためのフレームワークであるCoRe-Codeを提案する。 CoRe-Codeは単純なPlanner-Coderパラダイムを採用しており、Plannerは高レベルなプランを生成し、Coderはそれらを実行してコードを生成する。さらに,グループ相対政策最適化(GRPO)に基づく協調型強化学習のステージを導入し,役割の特化とアライメントを強化する。実験の結果,CoRe-Codeは既存のRL法やマルチエージェント法よりも優れていた。さらに、CoRe-Codeが他のマルチエージェントフレームワーク(RetrievalやDebugging Agentなど)に一般化できることを示し、その柔軟性とスケーラビリティを強調します。 3つのベースモデルを用いて,異なる難易度を持つ複数のベンチマークでCoRe-Codeを評価した。既存のベースラインと比較して、結果は精度が一貫した改善を示すと同時に、実行時間とメモリ使用率の面で高い効率を実現し、CoRe-Codeの有効性と実用性を示している。

関連論文リスト

CollabCoder: Plan-Code Co-Evolution via Collaborative Decision-Making for Efficient Code Generation [4.4015036709922235]
本稿では,動的マルチエージェントコラボレーションによるコード生成を改善する新しいPlan-Code Co-EvolutionフレームワークであるCollabCoderを紹介する。広く使用されているベンチマークの実験では、CollabCoderはタスク間のコード品質と堅牢性を一貫して改善している。
論文参考訳（メタデータ） (2026-04-15T14:58:26Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文参考訳（メタデータ） (2025-10-05T07:59:24Z)
Enhancing LLM Code Generation: A Systematic Evaluation of Multi-Agent Collaboration and Runtime Debugging for Improved Accuracy, Reliability, and Latency [0.0]
プログラミング活動の異なる構成や訓練パラダイムがコード生成の効率に与える影響について検討する。私たちの発見は、堅牢なAI駆動型コーディングソリューションを求める組織に貴重な洞察を与えます。
論文参考訳（メタデータ） (2025-05-04T14:44:27Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文参考訳（メタデータ） (2024-02-29T16:07:22Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。 PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文参考訳（メタデータ） (2023-01-31T18:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。