論文の概要: Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation
- arxiv url: http://arxiv.org/abs/2405.20092v2
- Date: Sun, 03 Nov 2024 09:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:45:02.667491
- Title: Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation
- Title(参考訳): Divide-and-Conquerがコンセンサスに - コード生成における関数のパワーの解放
- Authors: Jingchang Chen, Hongxuan Tang, Zheng Chu, Qianglong Chen, Zekun Wang, Ming Liu, Bing Qin,
- Abstract要約: FunCoderは、機能的なコンセンサスに分割と参照の戦略を取り入れたコード生成フレームワークである。
FunCoderは、HumanEval、MBPP、xCodeEval、MATHにおいて、GPT-3.5とGPT-4で、最先端のメソッドを平均で+9.8%上回る。
- 参考スコア(独自算出の注目度): 25.344800819245858
- License:
- Abstract: Despite recent progress made by large language models in code generation, they still struggle with programs that meet complex requirements. Recent work utilizes plan-and-solve decomposition to decrease the complexity and leverage self-tests to refine the generated program. Yet, planning deep-inside requirements in advance can be challenging, and the tests need to be accurate to accomplish self-improvement. To this end, we propose FunCoder, a code generation framework incorporating the divide-and-conquer strategy with functional consensus. Specifically, FunCoder recursively branches off sub-functions as smaller goals during code generation, represented by a tree hierarchy. These sub-functions are then composited to attain more complex objectives. Additionally, we designate functions via a consensus formed by identifying similarities in program behavior, mitigating error propagation. FunCoder outperforms state-of-the-art methods by +9.8% on average in HumanEval, MBPP, xCodeEval and MATH with GPT-3.5 and GPT-4. Moreover, our method demonstrates superiority on smaller models: With FunCoder, StableCode-3b surpasses GPT-3.5 by +18.6% and achieves 97.7% of GPT-4's performance on HumanEval. Further analysis reveals that our proposed dynamic function decomposition is capable of handling complex requirements, and the functional consensus prevails over self-testing in correctness evaluation.
- Abstract(参考訳): コード生成における大きな言語モデルによる最近の進歩にもかかわらず、複雑な要件を満たすプログラムに苦戦している。
最近の研究は、計画と解決の分解を利用して複雑さを減らし、自己テストを利用して生成されたプログラムを洗練している。
しかし、事前の奥深い要件の計画は困難であり、自己改善を達成するためにはテストが正確である必要がある。
そこで我々はFunCoderを提案する。FunCoderは関数型コンセンサスに分割・コンセンサスを組み込んだコード生成フレームワークである。
具体的には、FunCoderはコード生成時に小さな目標として、木階層で表現されたサブ関数を再帰的に分岐する。
これらの部分函数は、より複雑な目的を達成するために合成される。
さらに,プログラム動作の類似性を識別し,エラーの伝播を緩和するコンセンサスを用いて関数を指定する。
FunCoderは、HumanEval、MBPP、xCodeEval、MATHにおいて、GPT-3.5とGPT-4で、最先端のメソッドを平均で+9.8%上回る。
FunCoderでは、StableCode-3bはGPT-3.5を+18.6%超え、HumanEval上でのGPT-4のパフォーマンスの97.7%を達成した。
さらに解析した結果,提案する動的関数分解は複雑な要求を処理できることがわかった。
関連論文リスト
- CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [91.15135237584771]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - Assessing the Code Clone Detection Capability of Large Language Models [0.0]
評価には、さまざまなクローンタイプのコードペアと類似度のレベルでモデルをテストすることが含まれる。
GPT-4はすべてのクローンタイプでGPT-3.5を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-02T16:20:44Z) - MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。
私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。
我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文 参考訳(メタデータ) (2024-05-18T22:10:15Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - Aligning Offline Metrics and Human Judgments of Value for Code
Generation Models [25.726216146776054]
正確性は高価値な世代をキャプチャするが、プログラマは、コーディングタスクの完了に必要な全体的な労力を減らすことで、単体テストに失敗するコードを価値として評価する。
本稿では,機能的正しさと構文的類似性を組み合わせたハイブリッド計量を提案し,値との相関が14%強いことを示す。
論文 参考訳(メタデータ) (2022-10-29T05:03:28Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - C$^{4}$Net: Contextual Compression and Complementary Combination Network
for Salient Object Detection [0.0]
機能結合は、乗算や加算のような他の組み合わせ方法よりもうまく機能することを示す。
また、共同特徴学習は、処理中の情報共有のため、より良い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-22T16:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。