論文の概要: StarCoder 2 and The Stack v2: The Next Generation
- arxiv url: http://arxiv.org/abs/2402.19173v1
- Date: Thu, 29 Feb 2024 13:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:32:50.635015
- Title: StarCoder 2 and The Stack v2: The Next Generation
- Title(参考訳): StarCoder 2とStack v2:次世代
- Authors: Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel
Lamy-Poirier, Nouamane Tazi, Ao Tang, Dmytro Pykhtar, Jiawei Liu, Yuxiang
Wei, Tianyang Liu, Max Tian, Denis Kocetkov, Arthur Zucker, Younes Belkada,
Zijian Wang, Qian Liu, Dmitry Abulkhanov, Indraneil Paul, Zhuang Li, Wen-Ding
Li, Megan Risdal, Jia Li, Jian Zhu, Terry Yue Zhuo, Evgenii Zheltonozhskii,
Nii Osae Osae Dade, Wenhao Yu, Lucas Krau{\ss}, Naman Jain, Yixuan Su, Xuanli
He, Manan Dey, Edoardo Abati, Yekun Chai, Niklas Muennighoff, Xiangru Tang,
Muhtasham Oblokulov, Christopher Akiki, Marc Marone, Chenghao Mou, Mayank
Mishra, Alex Gu, Binyuan Hui, Tri Dao, Armel Zebaze, Olivier Dehaene, Nicolas
Patry, Canwen Xu, Julian McAuley, Han Hu, Torsten Scholak, Sebastien Paquet,
Jennifer Robinson, Carolyn Jane Anderson, Nicolas Chapados, Mostofa Patwary,
Nima Tajbakhsh, Yacine Jernite, Carlos Mu\~noz Ferrandis, Lingming Zhang,
Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries
- Abstract要約: 私たちは3.3から4.3兆のトークンで3B、7B、15BパラメータでStarCoder2モデルをトレーニングします。
我々は、それらをCode LLMベンチマークの包括的なセットで徹底的に評価する。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 105.93298676368798
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The BigCode project, an open-scientific collaboration focused on the
responsible development of Large Language Models for Code (Code LLMs),
introduces StarCoder2. In partnership with Software Heritage (SWH), we build
The Stack v2 on top of the digital commons of their source code archive.
Alongside the SWH repositories spanning 619 programming languages, we carefully
select other high-quality data sources, such as GitHub pull requests, Kaggle
notebooks, and code documentation. This results in a training set that is 4x
larger than the first StarCoder dataset. We train StarCoder2 models with 3B,
7B, and 15B parameters on 3.3 to 4.3 trillion tokens and thoroughly evaluate
them on a comprehensive set of Code LLM benchmarks. We find that our small
model, StarCoder2-3B, outperforms other Code LLMs of similar size on most
benchmarks, and also outperforms StarCoderBase-15B. Our large model,
StarCoder2- 15B, significantly outperforms other models of comparable size. In
addition, it matches or outperforms CodeLlama-34B, a model more than twice its
size. Although DeepSeekCoder- 33B is the best-performing model at code
completion for high-resource languages, we find that StarCoder2-15B outperforms
it on math and code reasoning benchmarks, as well as several low-resource
languages. We make the model weights available under an OpenRAIL license and
ensure full transparency regarding the training data by releasing the SoftWare
Heritage persistent IDentifiers (SWHIDs) of the source code data.
- Abstract(参考訳): BigCodeプロジェクトは、Large Language Models for Code (Code LLMs)の責任ある開発に焦点を当てた、オープンソースのコラボレーションである。
Software Heritage(SWH)と提携して、ソースコードアーカイブのデジタルコモンの上にThe Stack v2を構築しました。
619のプログラミング言語にまたがるSWHリポジトリに加えて、GitHubのプルリクエスト、Kaggleノートブック、コードドキュメントなど、他の高品質なデータソースも慎重に選択しています。
これにより、最初のStarCoderデータセットよりも4倍大きなトレーニングセットが得られる。
我々は3.3から4.3兆のトークンに対して3B、7B、15Bパラメータを持つStarCoder2モデルをトレーニングし、Code LLMベンチマークの包括的なセットでそれらを徹底的に評価する。
私たちの小さなモデルであるStarCoder2-3Bは、ほとんどのベンチマークで同様のサイズの他のコードLLMよりも優れており、StarCoderBase-15Bよりも優れています。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
さらに、CodeLlama-34Bは2倍以上の大きさのモデルである。
DeepSeekCoder-33Bは、高ソース言語のコード補完において、最高のパフォーマンスモデルであるが、StarCoder2-15Bは、数学やコード推論ベンチマーク、低リソースの言語よりも優れている。
ソースコードデータのSWHID(SoftWare Heritage persistent IDentifiers)をリリースすることにより,OpenRAILライセンス下でモデルウェイトを利用可能にするとともに,トレーニングデータに関する完全な透明性を確保する。
関連論文リスト
- VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - DeepSeek-Coder: When the Large Language Model Meets Programming -- The
Rise of Code Intelligence [42.517055368627226]
私たちはDeepSeek-Coderシリーズを紹介します。これは、サイズが1.3Bから33Bまでのオープンソースのコードモデルで、2兆トークンでゼロからトレーニングされています。
評価の結果、DeepSeek-Coderは複数のベンチマークでオープンソースのコードモデル間で最先端のパフォーマンスを実現していることがわかった。
DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にする寛容なライセンス下にある。
論文 参考訳(メタデータ) (2024-01-25T14:17:53Z) - BioCoder: A Benchmark for Bioinformatics Code Generation with Large Language Models [27.772192759716116]
バイオインフォマティクス固有のコードを生成する際に,大規模言語モデル(LLM)を評価するために開発されたベンチマークであるBioCoderを提案する。
BioCoderは、ファイル間の依存関係、クラス宣言、グローバル変数を含む、フィールドの大部分にまたがる。
本報告では, 包含コード全体の網羅範囲がバイオインフォマティクス計算の完全なスペクトルであることを示す。
論文 参考訳(メタデータ) (2023-08-31T04:52:58Z) - WizardCoder: Empowering Code Large Language Models with Evol-Instruct [67.24653703564492]
WezardCoderは、複雑な命令の微調整でコードLLMをパワーアップする。
私たちのモデルは、他のすべてのオープンソースコードLLMをかなり上回ります。
論文 参考訳(メタデータ) (2023-06-14T15:18:48Z) - StarCoder: may the source be with you! [79.93915935620798]
BigCodeコミュニティでは、StarCoderとStarCoderBaseを紹介している。
StarCoderBaseは、寛容にライセンスされたGitHubリポジトリの大規模なコレクションであるThe Stackからソースされた1兆のトークンに基づいてトレーニングされている。
論文 参考訳(メタデータ) (2023-05-09T08:16:42Z) - SantaCoder: don't reach for the stars! [27.050410834027705]
BigCodeプロジェクトは、コードのための大規模言語モデルの責任ある開発に取り組んでいる、オープン・サイエンティフィックなコラボレーションである。
The StackのJava,JavaScript,Pythonサブセットで1.1Bパラメータモデルをトレーニングし,MultiPL-Eのテキスト・トゥ・コードベンチマークで評価する。
私たちの最良のモデルは、MultiPL-EのJava、JavaScript、Pythonの各部分の左から右への生成とインフィルで、以前のオープンソース多言語コード生成モデルより優れています。
論文 参考訳(メタデータ) (2023-01-09T10:52:35Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。