Fugu-MT 論文翻訳(概要): OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement

論文の概要: OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement

arxiv url: http://arxiv.org/abs/2402.14658v2
Date: Wed, 28 Feb 2024 03:15:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 17:44:05.198677
Title: OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement
Title（参考訳）: OpenCodeInterpreter: 実行とリファインメントによるコード生成の統合
Authors: Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, and Xiang Yue
Abstract要約: 我々はOpenCodeInterpreterを紹介した。OpenCodeInterpreterは、コードを生成、実行、反復的に精製するためのオープンソースのコードシステムのファミリーである。我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
参考スコア（独自算出の注目度）: 58.034012276819425
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The introduction of large language models has significantly advanced code generation. However, open-source models often lack the execution capabilities and iterative refinement of advanced systems like the GPT-4 Code Interpreter. To address this, we introduce OpenCodeInterpreter, a family of open-source code systems designed for generating, executing, and iteratively refining code. Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions, OpenCodeInterpreter integrates execution and human feedback for dynamic code refinement. Our comprehensive evaluation of OpenCodeInterpreter across key benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6) with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap between open-source code generation models and proprietary systems like GPT-4 Code Interpreter.
Abstract（参考訳）: 大きな言語モデルの導入により、コード生成が大幅に進歩した。しかしながら、オープンソースモデルは、しばしばgpt-4コードインタプリタのような高度なシステムの実行能力や反復的な改善を欠いている。これに対処するために,opencodeinterpreterという,コードの生成,実行,反復的な洗練を目的とした,オープンソースのコードシステムファミリを紹介します。 68Kのマルチターンインタラクションを備えたデータセットであるCode-FeedbackがサポートするOpenCodeInterpreterは、動的コード洗練のための実行と人間のフィードバックを統合する。我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。特に、OpenCodeInterpreter-33Bは、HumanEvalとMBPPの平均(および追加バージョン)で83.2 (76.4)の精度を達成し、GPT-4の84.2 (76.2)と密接に競合する。 OpenCodeInterpreterは、オープンソースコード生成モデルとGPT-4 Code Interpreterのようなプロプライエタリシステムとのギャップをもたらす。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance [12.001043263281698]
既存のメソッドは、テキスト推論とコード生成の間に大きな言語モデル(LLM)を操ることができない。我々は、LLMコード/テキスト生成を導く効果的な方法であるCodeSteerを紹介する。 GPT-4oをCodeSteerで強化すると、平均的なパフォーマンススコアが53.3から86.4に上昇する。
論文参考訳（メタデータ） (2025-02-04T15:53:59Z)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文参考訳（メタデータ） (2024-11-07T00:09:54Z)
ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation [39.778073569406175]
我々は,コンパイラフィードバックを統合して構築したリフレクションシーケンスを効果的に活用し,ワンオフコード生成性能を向上させる新しい手法であるReflectionCoderを提案する。また,HumanEval(+),MBPP(+),MultiPl-Eの3つのベンチマーク実験により,本手法で微調整したモデルが最先端の性能を発揮することを示した。
論文参考訳（メタデータ） (2024-05-27T11:27:00Z)
Prompt-based Code Completion via Multi-Retrieval Augmented Generation [15.233727939816388]
ProCCは、プロンプトエンジニアリングとコンテキスト多武装バンディットアルゴリズムを活用したコード補完フレームワークである。 ProCCは、収集したオープンソースベンチマークスイートにおいて、最先端のコード補完テクニックを8.6%上回ります。 ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。
論文参考訳（メタデータ） (2024-05-13T07:56:15Z)
Magicoder: Empowering Code Generation with OSS-Instruct [14.414411313794911]
Magicoderは、コードのためのLarge Language Models(LLM)シリーズの完全なオープンソース(コード、重み、データ)を紹介します。 MagicoderモデルはOSS-Instructを使って75Kの合成命令データに基づいて訓練される。 MagicoderとMagicoderSはどちらも、幅広いコーディングベンチマークにおいて、類似またはそれ以上の大きさの最先端のコードモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2023-12-04T18:50:35Z)
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。 CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文参考訳（メタデータ） (2023-10-10T02:38:44Z)
AI-assisted Code Authoring at Scale: Fine-tuning, deploying, and mixed methods evaluation [9.915327592560896]
我々は、Metaで開発およびデプロイされたAI支援コードオーサリングツールであるCodeComposeを紹介する。 CodeComposeは、生成能力を双方向にマージするInCoder LLMに基づいている。 20Kのソースコードファイルのランダムなサンプルでは、40%から58%の時間で隠れた行を再現することができ、公開データのみに基づいてトレーニングされたモデルよりも1.4xと4.1xが改善された。
論文参考訳（メタデータ） (2023-05-20T00:45:15Z)
StarCoder: may the source be with you! [79.93915935620798]
BigCodeコミュニティでは、StarCoderとStarCoderBaseを紹介している。 StarCoderBaseは、寛容にライセンスされたGitHubリポジトリの大規模なコレクションであるThe Stackからソースされた1兆のトークンに基づいてトレーニングされている。
論文参考訳（メタデータ） (2023-05-09T08:16:42Z)
CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X [50.008474888951525]
コード生成に130億のパラメータを持つ多言語モデルであるCodeGeeXを紹介する。 CodeGeeXは、23のプログラミング言語の8500億のトークンで事前訓練されている。
論文参考訳（メタデータ） (2023-03-30T17:34:01Z)
Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。 Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文参考訳（メタデータ） (2022-11-29T18:56:33Z)
Compilable Neural Code Generation with Compiler Feedback [43.97362484564799]
本稿では、言語モデルの微調整、コンパイル可能性強化、コンパイル可能性判定を含む、コンパイル可能なコード生成のための3段階パイプラインを提案する。 2つのコード生成タスクの実験は,提案手法の有効性を示し,平均44.18から89.18に,テキスト・コード生成では70.3から96.2に向上した。
論文参考訳（メタデータ） (2022-03-10T03:15:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。