論文の概要: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
- arxiv url: http://arxiv.org/abs/2406.11931v1
- Date: Mon, 17 Jun 2024 13:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:36:26.346360
- Title: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
- Title(参考訳): DeepSeek-Coder-V2: コードインテリジェンスにおけるクローズドソースモデルの障壁を突破する
- Authors: DeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang, Runxin Xu, Y. Wu, Yukun Li, Huazuo Gao, Shirong Ma, Wangding Zeng, Xiao Bi, Zihui Gu, Hanwei Xu, Damai Dai, Kai Dong, Liyue Zhang, Yishi Piao, Zhibin Gou, Zhenda Xie, Zhewen Hao, Bingxuan Wang, Junxiao Song, Deli Chen, Xin Xie, Kang Guan, Yuxiang You, Aixin Liu, Qiushi Du, Wenjun Gao, Xuan Lu, Qinyu Chen, Yaohui Wang, Chengqi Deng, Jiashi Li, Chenggang Zhao, Chong Ruan, Fuli Luo, Wenfeng Liang,
- Abstract要約: DeepSeek-Coder-V2は、コード固有のタスクでGPT4-Turboに匹敵するパフォーマンスを実現する、オープンソースのコード言語モデルである。
DeepSeek-Coder-V2はさらに6兆トークンを追加して、DeepSeek-V2の中間チェックポイントから事前トレーニングされている。
標準的なベンチマーク評価では、GPT4-Turbo、Claude 3 Opus、Gemini 1.5 Proといったクローズドソースモデルと比較して、DeepSeek-Coder-V2は優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 43.589403386634615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek-Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder-V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.
- Abstract(参考訳): We present DeepSeek-Coder-V2, a open-source Mixture-of-Experts (MoE) code language model that achieve performance to GPT4-Turbo in code-specific task。
具体的には、DeepSeek-Coder-V2はさらに6兆トークンを追加して、DeepSeek-V2の中間チェックポイントから事前トレーニングされている。
この継続事前トレーニングを通じて、DeepSeek-Coder-V2は、一般的な言語タスクで同等のパフォーマンスを維持しながら、DeepSeek-V2のコーディングと数学的推論能力を大幅に強化する。
DeepSeek-Coder-33Bと比較すると、DeepSeek-Coder-V2は、推論や一般的な機能だけでなく、コード関連タスクの様々な面で大きな進歩を示している。
さらに、DeepSeek-Coder-V2はプログラミング言語のサポートを86から338に拡張し、コンテキスト長は16Kから128Kに拡張した。
標準的なベンチマーク評価では、コーディングや数学ベンチマークにおいて、GPT4-Turbo、Claude 3 Opus、Gemini 1.5 Proといったクローズドソースモデルと比較して、DeepSeek-Coder-V2は優れたパフォーマンスを実現している。
関連論文リスト
- DeepSeek-V3 Technical Report [147.16121855209246]
We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token。
我々は14.8兆の多様性と高品質のトークンでDeepSeek-V3を事前訓練し、その後にSupervised Fine-Tuning and Reinforcement Learningのステージを受講した。
包括的な評価によると、DeepSeek-V3は他のオープンソースモデルよりも優れており、主要なクローズドソースモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-27T04:03:16Z) - DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding [39.14141055325595]
We present DeepSeek-VL2, a Advanced series of large Mixture-of-Experts (MoE) Vision-Language Models。
ビジョンコンポーネントには、アスペクト比の異なる高解像度画像を処理するために設計された動的タイリングビジョン符号化戦略が組み込まれている。
言語コンポーネントについては、Multi-head Latent AttentionメカニズムでDeepSeekMoEモデルを活用します。
論文 参考訳(メタデータ) (2024-12-13T17:37:48Z) - DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search [16.477438279316576]
私たちはDeepSeek-Prover-V1.5を紹介します。
このモデルはDeepSeek-Prover-V1から派生した拡張形式定理証明データセットを用いて教師付き微調整を行う。
本稿では,モンテカルロ木探索の変種であるRMaxTSを提案する。
論文 参考訳(メタデータ) (2024-08-15T13:40:03Z) - DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [118.06260386652778]
We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。
DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。
DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
論文 参考訳(メタデータ) (2024-05-07T15:56:43Z) - StarCoder 2 and The Stack v2: The Next Generation [105.93298676368798]
私たちは3.3から4.3兆のトークンで3B、7B、15BパラメータでStarCoder2モデルをトレーニングします。
我々は、それらをCode LLMベンチマークの包括的なセットで徹底的に評価する。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-29T13:53:35Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - DeepSeek-Coder: When the Large Language Model Meets Programming -- The
Rise of Code Intelligence [42.517055368627226]
私たちはDeepSeek-Coderシリーズを紹介します。これは、サイズが1.3Bから33Bまでのオープンソースのコードモデルで、2兆トークンでゼロからトレーニングされています。
評価の結果、DeepSeek-Coderは複数のベンチマークでオープンソースのコードモデル間で最先端のパフォーマンスを実現していることがわかった。
DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にする寛容なライセンス下にある。
論文 参考訳(メタデータ) (2024-01-25T14:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。