Fugu-MT 論文翻訳(概要): Magicoder: Empowering Code Generation with OSS-Instruct

論文の概要: Magicoder: Empowering Code Generation with OSS-Instruct

arxiv url: http://arxiv.org/abs/2312.02120v2
Date: Fri, 7 Jun 2024 02:50:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 20:36:48.848450
Title: Magicoder: Empowering Code Generation with OSS-Instruct
Title（参考訳）: Magicoder:OSS命令によるコード生成の強化
Authors: Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, Lingming Zhang,
Abstract要約: Magicoderは、コードのためのLarge Language Models(LLM)シリーズの完全なオープンソース(コード、重み、データ)を紹介します。 MagicoderモデルはOSS-Instructを使って75Kの合成命令データに基づいて訓練される。 MagicoderとMagicoderSはどちらも、幅広いコーディングベンチマークにおいて、類似またはそれ以上の大きさの最先端のコードモデルよりも大幅に優れている。
参考スコア（独自算出の注目度）: 14.414411313794911
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Magicoder, a series of fully open-source (code, weights, and data) Large Language Models (LLMs) for code that significantly closes the gap with top code models while having no more than 7B parameters. Magicoder models are trained on 75K synthetic instruction data using OSS-Instruct, a novel approach to enlightening LLMs with open-source code snippets to generate diverse instruction data for code. Our main motivation is to mitigate the inherent bias of the synthetic data generated by LLMs through the wealth of open-source references for the production of more realistic and controllable data. The orthogonality of OSS-Instruct and other data generation methods like Evol-Instruct further enables us to build an enhanced MagicoderS. Both Magicoder and MagicoderS substantially outperform state-of-the-art code models with similar or even larger sizes on a wide range of coding benchmarks. Notably, MagicoderS-CL-7B based on CodeLlama even surpasses the prominent ChatGPT on HumanEval+ (66.5 vs. 65.9 in pass@1 ). Overall, OSS-Instruct opens a new direction for crafting diverse synthetic instruction data for code using abundant open-source references.
Abstract（参考訳）: Magicoderは、コードのための、完全なオープンソース(コード、重み、データ)のシリーズで、7Bパラメータを含まないまま、トップコードモデルとのギャップを著しく埋める大規模言語モデル(LLM)を紹介します。 Magicoderモデルは、OSS-Instructを使って75Kの合成命令データに基づいてトレーニングされている。我々の主な動機は、より現実的で制御可能なデータを生成するために、LLMが生成する合成データの固有のバイアスを軽減することである。 OSS-InstructとEvol-Instructのようなデータ生成メソッドの直交性により、さらに拡張されたMagicoderSを構築することができます。 MagicoderとMagicoderSはどちらも、幅広いコーディングベンチマークにおいて、類似またはそれ以上の大きさの最先端のコードモデルよりも大幅に優れている。特に、CodeLlamaをベースとしたMagicoderS-CL-7Bは、HumanEval+の著名なChatGPT(66.5 vs. 65.9 in pass@1 )を超えている。 OSS-Instructは、豊富なオープンソースリファレンスを使用して、コードのための多様な合成インストラクションデータを構築するための、新たな方向を開く。

関連論文リスト

OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [59.60208063956459]
大規模言語モデル(LLM)は、効果的なアライメントのために高品質な命令データを必要とする。本稿では,大規模かつ高品質な符号化命令を合成するスケーラブルなアルゴリズムであるGenematic-Instructを提案する。
論文参考訳（メタデータ） (2024-07-29T20:42:59Z)
InverseCoder: Self-improving Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では、微調整されたオープンソースモデルを用いて、追加データを生成して命令調整データセットを拡張できるかどうかを考察する。 Inverse-Instructは、微調整 LLM を用いて、独自のトレーニングデータセットからコード応答の追加命令を生成するデータ拡張手法である。
論文参考訳（メタデータ） (2024-07-08T08:00:05Z)
AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文参考訳（メタデータ） (2024-05-29T16:57:33Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
WaveCoder: Widespread And Versatile Enhancement For Code Large Language Models By Instruction Tuning [22.44573249705913]
We present WaveCoder, a series of Code LLMs training with Widespread And Versatile Enhanced instruction data。複雑なコード関連タスクに対処するために,オープンソースのコードデータセットから多種多様な高品質の命令データを安定して生成する手法を提案する。実験により、WaveCoderモデルは、異なるコード関連タスク間の一般化能力において、他のオープンソースモデルよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2023-12-20T09:02:29Z)
WizardCoder: Empowering Code Large Language Models with Evol-Instruct [67.24653703564492]
WezardCoderは、複雑な命令の微調整でコードLLMをパワーアップする。私たちのモデルは、他のすべてのオープンソースコードLLMをかなり上回ります。
論文参考訳（メタデータ） (2023-06-14T15:18:48Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文参考訳（メタデータ） (2022-08-24T02:34:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。