論文の概要: OpenCodeInterpreter: Integrating Code Generation with Execution and
Refinement
- arxiv url: http://arxiv.org/abs/2402.14658v2
- Date: Wed, 28 Feb 2024 03:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:44:05.198677
- Title: OpenCodeInterpreter: Integrating Code Generation with Execution and
Refinement
- Title(参考訳): OpenCodeInterpreter: 実行とリファインメントによるコード生成の統合
- Authors: Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin,
Jie Fu, Wenhu Chen, and Xiang Yue
- Abstract要約: 我々はOpenCodeInterpreterを紹介した。OpenCodeInterpreterは、コードを生成、実行、反復的に精製するためのオープンソースのコードシステムのファミリーである。
我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
- 参考スコア(独自算出の注目度): 58.034012276819425
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The introduction of large language models has significantly advanced code
generation. However, open-source models often lack the execution capabilities
and iterative refinement of advanced systems like the GPT-4 Code Interpreter.
To address this, we introduce OpenCodeInterpreter, a family of open-source code
systems designed for generating, executing, and iteratively refining code.
Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions,
OpenCodeInterpreter integrates execution and human feedback for dynamic code
refinement. Our comprehensive evaluation of OpenCodeInterpreter across key
benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus
reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves
an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and
MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6)
with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap
between open-source code generation models and proprietary systems like GPT-4
Code Interpreter.
- Abstract(参考訳): 大きな言語モデルの導入により、コード生成が大幅に進歩した。
しかしながら、オープンソースモデルは、しばしばgpt-4コードインタプリタのような高度なシステムの実行能力や反復的な改善を欠いている。
これに対処するために,opencodeinterpreterという,コードの生成,実行,反復的な洗練を目的とした,オープンソースのコードシステムファミリを紹介します。
68Kのマルチターンインタラクションを備えたデータセットであるCode-FeedbackがサポートするOpenCodeInterpreterは、動的コード洗練のための実行と人間のフィードバックを統合する。
我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
特に、OpenCodeInterpreter-33Bは、HumanEvalとMBPPの平均(および追加バージョン)で83.2 (76.4)の精度を達成し、GPT-4の84.2 (76.2)と密接に競合する。
OpenCodeInterpreterは、オープンソースコード生成モデルとGPT-4 Code Interpreterのようなプロプライエタリシステムとのギャップをもたらす。
関連論文リスト
- When LLM-based Code Generation Meets the Software Development Process [50.82665351100067]
本稿では,ソフトウェア工学の確立した実践に触発されたコード生成フレームワークであるLCGを紹介する。
LLMエージェントは、LCGWaterfall、LCGTDD、LCGScrumといった様々なソフトウェアプロセスモデルをエミュレートする。
我々は,HumanEval,HumanEval-ET,MBPP,MBPP-ETの4つのコード生成ベンチマークでLCGを評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - EffiBench: Benchmarking the Efficiency of Automatically Generated Code [13.85357787564053]
GPT-4-turboは最も効率的なコードを生成し、Palm-2-chat-bison、Claude-instant-1、Gemini-pro、GPT-4、GPT-3.5を著しく上回っている。
GPT-4-turbo生成コードの平均実行時間は、標準解の1.69倍と45.49倍である。
論文 参考訳(メタデータ) (2024-02-03T05:24:39Z) - Magicoder: Source Code Is All You Need [15.464442858932943]
Magicoderは、コードのためのLarge Language Models(LLM)シリーズの完全なオープンソース(コード、重み、データ)を紹介します。
MagicoderモデルはOSS-Instructを使って75Kの合成命令データに基づいて訓練される。
MagicoderとMagicoderSはどちらも、幅広いコーディングベンチマークにおいて、類似またはそれ以上の大きさの最先端のコードモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-12-04T18:50:35Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Unveiling the potential of large language models in generating semantic
and cross-language clones [8.791710193028905]
OpenAIのGPTモデルは、テキスト生成に使用されるGPTのようなクローン生成の可能性を秘めている。
セマンティッククローンの分野では、GPT-3の精度は62.14%と0.55 BLEUで、数発のプロンプトエンジニアリングによって達成されている。
論文 参考訳(メタデータ) (2023-09-12T17:40:49Z) - AI-assisted Code Authoring at Scale: Fine-tuning, deploying, and mixed
methods evaluation [9.915327592560896]
我々は、Metaで開発およびデプロイされたAI支援コードオーサリングツールであるCodeComposeを紹介する。
CodeComposeは、生成能力を双方向にマージするInCoder LLMに基づいている。
20Kのソースコードファイルのランダムなサンプルでは、40%から58%の時間で隠れた行を再現することができ、公開データのみに基づいてトレーニングされたモデルよりも1.4xと4.1xが改善された。
論文 参考訳(メタデータ) (2023-05-20T00:45:15Z) - StarCoder: may the source be with you! [79.93915935620798]
BigCodeコミュニティでは、StarCoderとStarCoderBaseを紹介している。
StarCoderBaseは、寛容にライセンスされたGitHubリポジトリの大規模なコレクションであるThe Stackからソースされた1兆のトークンに基づいてトレーニングされている。
論文 参考訳(メタデータ) (2023-05-09T08:16:42Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - Compilable Neural Code Generation with Compiler Feedback [43.97362484564799]
本稿では、言語モデルの微調整、コンパイル可能性強化、コンパイル可能性判定を含む、コンパイル可能なコード生成のための3段階パイプラインを提案する。
2つのコード生成タスクの実験は,提案手法の有効性を示し,平均44.18から89.18に,テキスト・コード生成では70.3から96.2に向上した。
論文 参考訳(メタデータ) (2022-03-10T03:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。