論文の概要: DeepSeek-Coder: When the Large Language Model Meets Programming -- The
Rise of Code Intelligence
- arxiv url: http://arxiv.org/abs/2401.14196v2
- Date: Fri, 26 Jan 2024 09:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 12:30:13.415276
- Title: DeepSeek-Coder: When the Large Language Model Meets Programming -- The
Rise of Code Intelligence
- Title(参考訳): DeepSeek-Coder: 大規模言語モデルがプログラミングに出会ったとき - コードインテリジェンスの増加
- Authors: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang,
Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng
Liang
- Abstract要約: 私たちはDeepSeek-Coderシリーズを紹介します。これは、サイズが1.3Bから33Bまでのオープンソースのコードモデルで、2兆トークンでゼロからトレーニングされています。
評価の結果、DeepSeek-Coderは複数のベンチマークでオープンソースのコードモデル間で最先端のパフォーマンスを実現していることがわかった。
DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にする寛容なライセンス下にある。
- 参考スコア(独自算出の注目度): 42.517055368627226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of large language models has revolutionized code
intelligence in software development. However, the predominance of
closed-source models has restricted extensive research and development. To
address this, we introduce the DeepSeek-Coder series, a range of open-source
code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion
tokens. These models are pre-trained on a high-quality project-level code
corpus and employ a fill-in-the-blank task with a 16K window to enhance code
generation and infilling. Our extensive evaluations demonstrate that
DeepSeek-Coder not only achieves state-of-the-art performance among open-source
code models across multiple benchmarks but also surpasses existing
closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models
are under a permissive license that allows for both research and unrestricted
commercial use.
- Abstract(参考訳): 大規模言語モデルの急速な開発は、ソフトウェア開発におけるコードインテリジェンスに革命をもたらした。
しかし、クローズドソースモデルの優位は広範な研究と開発を制限している。
これに対処するために、我々は2兆トークンでスクラッチからトレーニングされた、1.3bから33bまでのサイズのオープンソースのコードモデルであるdeepseek-coderシリーズを紹介します。
これらのモデルは高品質なプロジェクトレベルのコードコーパスで事前トレーニングされ、コード生成とインフィルリングを強化するために16kウィンドウのフィルイン・ザ・ブランクタスクを使用する。
広範な評価結果から,deepseek-coderは,複数のベンチマークをまたいだオープンソースコードモデル間の最先端のパフォーマンスを実現するだけでなく,codexやgpt-3.5といった既存のクローズドソースモデルを超えていることが示された。
さらに、DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にするパーミッシブライセンス下にある。
関連論文リスト
- StarCoder 2 and The Stack v2: The Next Generation [105.93298676368798]
私たちは3.3から4.3兆のトークンで3B、7B、15BパラメータでStarCoder2モデルをトレーニングします。
我々は、それらをCode LLMベンチマークの包括的なセットで徹底的に評価する。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-29T13:53:35Z) - INSPECT: Intrinsic and Systematic Probing Evaluation for Code
Transformers [7.255653248042546]
我々は、ソースコードの表面、構文、構造、意味的特性を訓練する15の探索タスクを定義するためにフレームワークを使用します。
8つの事前訓練されたソースコードモデルと、ベースラインとして自然言語モデル(BERT)を探索する。
構造情報(GraphCodeBERTなど)を組み込んだモデルの方が,ソースコードの特徴をよりよく表現できることがわかった。
論文 参考訳(メタデータ) (2023-12-08T15:21:54Z) - Code Llama: Open Foundation Models for Code [93.30115424203868]
私たちはLlama 2.0をベースにしたコードのための大規模言語モデルのファミリーであるCode Llamaをリリースした。
Code Llamaは、いくつかのコードベンチマークで、オープンモデルの最先端のパフォーマンスに達する。
私たちはCode Llamaをパーミッシブライセンスでリリースし、研究と商用の両方の使用を可能にします。
論文 参考訳(メタデータ) (2023-08-24T17:39:13Z) - StarCoder: may the source be with you! [79.93915935620798]
BigCodeコミュニティでは、StarCoderとStarCoderBaseを紹介している。
StarCoderBaseは、寛容にライセンスされたGitHubリポジトリの大規模なコレクションであるThe Stackからソースされた1兆のトークンに基づいてトレーニングされている。
論文 参考訳(メタデータ) (2023-05-09T08:16:42Z) - Greener yet Powerful: Taming Large Code Generation Models with
Quantization [47.734976584580224]
事前訓練された大規模なディープラーニングモデルは、コード生成の境界を大幅に押し下げた。
その大きな力にもかかわらず、膨大な数のモデルパラメータが、通常のソフトウェア開発環境でそれらを適用することに重大な脅威をもたらします。
モデル圧縮はこれらの課題に対処するための有望なアプローチである。
論文 参考訳(メタデータ) (2023-03-09T16:25:51Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。